Flex-Judge : Penser une fois, juger partout
Flex-Judge: Think Once, Judge Anywhere
May 24, 2025
Auteurs: Jongwoo Ko, Sungnyun Kim, Sungwoo Cho, Se-Young Yun
cs.AI
Résumé
Les signaux de récompense générés par les humains sont essentiels pour aligner les modèles génératifs sur les préférences humaines, guidant à la fois l'entraînement et les évaluations lors de l'inférence. Bien que les grands modèles de langage (LLMs) utilisés comme évaluateurs proxy, c'est-à-dire LLM-as-a-Judge, réduisent considérablement les coûts associés aux annotations manuelles, ils nécessitent généralement des données d'entraînement spécifiques à chaque modalité et peinent à généraliser efficacement à travers des tâches multimodales variées. Dans cet article, nous proposons Flex-Judge, un modèle juge multimodal guidé par le raisonnement, qui exploite un minimum de données de raisonnement textuel pour généraliser robustement à travers plusieurs modalités et formats d'évaluation. Notre intuition centrale est que les explications de raisonnement textuel structuré encodent intrinsèquement des schémas de prise de décision généralisables, permettant un transfert efficace vers des jugements multimodaux, par exemple avec des images ou des vidéos. Les résultats empiriques démontrent que Flex-Judge, bien qu'entraîné sur beaucoup moins de données textuelles, atteint des performances compétitives ou supérieures par rapport aux API commerciales de pointe et aux évaluateurs multimodaux intensivement entraînés. Notamment, Flex-Judge présente un impact significatif dans des modalités comme les molécules, où les benchmarks d'évaluation complets sont rares, soulignant ainsi sa valeur pratique dans des domaines aux ressources limitées. Notre cadre met en lumière la supervision textuelle basée sur le raisonnement comme une alternative puissante et rentable aux approches traditionnelles intensives en annotations, faisant progresser de manière substantielle le modèle-as-a-judge multimodal et scalable.
English
Human-generated reward signals are critical for aligning generative models
with human preferences, guiding both training and inference-time evaluations.
While large language models (LLMs) employed as proxy evaluators, i.e.,
LLM-as-a-Judge, significantly reduce the costs associated with manual
annotations, they typically require extensive modality-specific training data
and fail to generalize well across diverse multimodal tasks. In this paper, we
propose Flex-Judge, a reasoning-guided multimodal judge model that leverages
minimal textual reasoning data to robustly generalize across multiple
modalities and evaluation formats. Our core intuition is that structured
textual reasoning explanations inherently encode generalizable decision-making
patterns, enabling an effective transfer to multimodal judgments, e.g., with
images or videos. Empirical results demonstrate that Flex-Judge, despite being
trained on significantly fewer text data, achieves competitive or superior
performance compared to state-of-the-art commercial APIs and extensively
trained multimodal evaluators. Notably, Flex-Judge presents broad impact in
modalities like molecule, where comprehensive evaluation benchmarks are scarce,
underscoring its practical value in resource-constrained domains. Our framework
highlights reasoning-based text supervision as a powerful, cost-effective
alternative to traditional annotation-intensive approaches, substantially
advancing scalable multimodal model-as-a-judge.Summary
AI-Generated Summary