Flex-Judge: Einmal Denken, Überall Bewerten
Flex-Judge: Think Once, Judge Anywhere
May 24, 2025
Autoren: Jongwoo Ko, Sungnyun Kim, Sungwoo Cho, Se-Young Yun
cs.AI
Zusammenfassung
Menschlich generierte Belohnungssignale sind entscheidend, um generative Modelle mit menschlichen Präferenzen in Einklang zu bringen und sowohl das Training als auch die Bewertungen zur Inferenzzeit zu steuern. Während große Sprachmodelle (LLMs), die als Proxy-Bewerter eingesetzt werden – sogenannte LLM-as-a-Judge – die Kosten für manuelle Annotationen erheblich reduzieren, benötigen sie in der Regel umfangreiche, modalitätsspezifische Trainingsdaten und können sich nicht gut über diverse multimodale Aufgaben hinweg verallgemeinern. In diesem Artikel stellen wir Flex-Judge vor, ein multimodales Bewertermodell, das durch textbasierte Argumentation geleitet wird und minimale textuelle Argumentationsdaten nutzt, um robust über mehrere Modalitäten und Bewertungsformate hinweg zu verallgemeinern. Unsere zentrale Intuition ist, dass strukturierte textuelle Argumentationserklärungen inhärent verallgemeinerbare Entscheidungsmuster kodieren, die einen effektiven Transfer auf multimodale Bewertungen, z. B. mit Bildern oder Videos, ermöglichen. Empirische Ergebnisse zeigen, dass Flex-Judge, obwohl es mit deutlich weniger Textdaten trainiert wurde, eine wettbewerbsfähige oder überlegene Leistung im Vergleich zu state-of-the-art kommerziellen APIs und umfangreich trainierten multimodalen Bewertern erzielt. Besonders hervorzuheben ist, dass Flex-Judge eine breite Wirkung in Modalitäten wie Molekülen zeigt, wo umfassende Bewertungsbenchmarks rar sind, was seinen praktischen Wert in ressourcenbeschränkten Domänen unterstreicht. Unser Framework hebt textbasierte Argumentationsüberwachung als eine leistungsstarke, kosteneffiziente Alternative zu traditionellen, annotationsintensiven Ansätzen hervor und trägt wesentlich zur Skalierbarkeit multimodaler Modelle als Bewerter bei.
English
Human-generated reward signals are critical for aligning generative models
with human preferences, guiding both training and inference-time evaluations.
While large language models (LLMs) employed as proxy evaluators, i.e.,
LLM-as-a-Judge, significantly reduce the costs associated with manual
annotations, they typically require extensive modality-specific training data
and fail to generalize well across diverse multimodal tasks. In this paper, we
propose Flex-Judge, a reasoning-guided multimodal judge model that leverages
minimal textual reasoning data to robustly generalize across multiple
modalities and evaluation formats. Our core intuition is that structured
textual reasoning explanations inherently encode generalizable decision-making
patterns, enabling an effective transfer to multimodal judgments, e.g., with
images or videos. Empirical results demonstrate that Flex-Judge, despite being
trained on significantly fewer text data, achieves competitive or superior
performance compared to state-of-the-art commercial APIs and extensively
trained multimodal evaluators. Notably, Flex-Judge presents broad impact in
modalities like molecule, where comprehensive evaluation benchmarks are scarce,
underscoring its practical value in resource-constrained domains. Our framework
highlights reasoning-based text supervision as a powerful, cost-effective
alternative to traditional annotation-intensive approaches, substantially
advancing scalable multimodal model-as-a-judge.Summary
AI-Generated Summary