Flex-Judge: Pense Uma Vez, Julgue em Qualquer Lugar
Flex-Judge: Think Once, Judge Anywhere
May 24, 2025
Autores: Jongwoo Ko, Sungnyun Kim, Sungwoo Cho, Se-Young Yun
cs.AI
Resumo
Sinais de recompensa gerados por humanos são cruciais para alinhar modelos generativos com as preferências humanas, orientando tanto o treinamento quanto as avaliações durante a inferência. Embora modelos de linguagem de grande escala (LLMs) empregados como avaliadores substitutos, ou seja, LLM-as-a-Judge, reduzam significativamente os custos associados a anotações manuais, eles geralmente exigem extensos dados de treinamento específicos para cada modalidade e falham em generalizar bem em tarefas multimodais diversas. Neste artigo, propomos o Flex-Judge, um modelo de juiz multimodal guiado por raciocínio que aproveita dados mínimos de raciocínio textual para generalizar de forma robusta em múltiplas modalidades e formatos de avaliação. Nossa intuição central é que explicações estruturadas de raciocínio textual codificam inerentemente padrões generalizáveis de tomada de decisão, permitindo uma transferência eficaz para julgamentos multimodais, por exemplo, com imagens ou vídeos. Resultados empíricos demonstram que o Flex-Judge, apesar de ser treinado com significativamente menos dados textuais, alcança desempenho competitivo ou superior em comparação com APIs comerciais de ponta e avaliadores multimodais extensivamente treinados. Notavelmente, o Flex-Judge apresenta impacto amplo em modalidades como moléculas, onde benchmarks de avaliação abrangentes são escassos, destacando seu valor prático em domínios com recursos limitados. Nosso framework destaca a supervisão textual baseada em raciocínio como uma alternativa poderosa e custo-efetiva às abordagens tradicionais intensivas em anotações, avançando substancialmente a escalabilidade de modelos multimodais como juízes.
English
Human-generated reward signals are critical for aligning generative models
with human preferences, guiding both training and inference-time evaluations.
While large language models (LLMs) employed as proxy evaluators, i.e.,
LLM-as-a-Judge, significantly reduce the costs associated with manual
annotations, they typically require extensive modality-specific training data
and fail to generalize well across diverse multimodal tasks. In this paper, we
propose Flex-Judge, a reasoning-guided multimodal judge model that leverages
minimal textual reasoning data to robustly generalize across multiple
modalities and evaluation formats. Our core intuition is that structured
textual reasoning explanations inherently encode generalizable decision-making
patterns, enabling an effective transfer to multimodal judgments, e.g., with
images or videos. Empirical results demonstrate that Flex-Judge, despite being
trained on significantly fewer text data, achieves competitive or superior
performance compared to state-of-the-art commercial APIs and extensively
trained multimodal evaluators. Notably, Flex-Judge presents broad impact in
modalities like molecule, where comprehensive evaluation benchmarks are scarce,
underscoring its practical value in resource-constrained domains. Our framework
highlights reasoning-based text supervision as a powerful, cost-effective
alternative to traditional annotation-intensive approaches, substantially
advancing scalable multimodal model-as-a-judge.