ChatPaper.aiChatPaper

Flex-Judge: Einmal Denken, Überall Bewerten

Flex-Judge: Think Once, Judge Anywhere

May 24, 2025
Autoren: Jongwoo Ko, Sungnyun Kim, Sungwoo Cho, Se-Young Yun
cs.AI

Zusammenfassung

Menschlich generierte Belohnungssignale sind entscheidend, um generative Modelle mit menschlichen Präferenzen in Einklang zu bringen und sowohl das Training als auch die Bewertungen zur Inferenzzeit zu steuern. Während große Sprachmodelle (LLMs), die als Proxy-Bewerter eingesetzt werden – sogenannte LLM-as-a-Judge – die Kosten für manuelle Annotationen erheblich reduzieren, benötigen sie in der Regel umfangreiche, modalitätsspezifische Trainingsdaten und können sich nicht gut über diverse multimodale Aufgaben hinweg verallgemeinern. In diesem Artikel stellen wir Flex-Judge vor, ein multimodales Bewertermodell, das durch textbasierte Argumentation geleitet wird und minimale textuelle Argumentationsdaten nutzt, um robust über mehrere Modalitäten und Bewertungsformate hinweg zu verallgemeinern. Unsere zentrale Intuition ist, dass strukturierte textuelle Argumentationserklärungen inhärent verallgemeinerbare Entscheidungsmuster kodieren, die einen effektiven Transfer auf multimodale Bewertungen, z. B. mit Bildern oder Videos, ermöglichen. Empirische Ergebnisse zeigen, dass Flex-Judge, obwohl es mit deutlich weniger Textdaten trainiert wurde, eine wettbewerbsfähige oder überlegene Leistung im Vergleich zu state-of-the-art kommerziellen APIs und umfangreich trainierten multimodalen Bewertern erzielt. Besonders hervorzuheben ist, dass Flex-Judge eine breite Wirkung in Modalitäten wie Molekülen zeigt, wo umfassende Bewertungsbenchmarks rar sind, was seinen praktischen Wert in ressourcenbeschränkten Domänen unterstreicht. Unser Framework hebt textbasierte Argumentationsüberwachung als eine leistungsstarke, kosteneffiziente Alternative zu traditionellen, annotationsintensiven Ansätzen hervor und trägt wesentlich zur Skalierbarkeit multimodaler Modelle als Bewerter bei.
English
Human-generated reward signals are critical for aligning generative models with human preferences, guiding both training and inference-time evaluations. While large language models (LLMs) employed as proxy evaluators, i.e., LLM-as-a-Judge, significantly reduce the costs associated with manual annotations, they typically require extensive modality-specific training data and fail to generalize well across diverse multimodal tasks. In this paper, we propose Flex-Judge, a reasoning-guided multimodal judge model that leverages minimal textual reasoning data to robustly generalize across multiple modalities and evaluation formats. Our core intuition is that structured textual reasoning explanations inherently encode generalizable decision-making patterns, enabling an effective transfer to multimodal judgments, e.g., with images or videos. Empirical results demonstrate that Flex-Judge, despite being trained on significantly fewer text data, achieves competitive or superior performance compared to state-of-the-art commercial APIs and extensively trained multimodal evaluators. Notably, Flex-Judge presents broad impact in modalities like molecule, where comprehensive evaluation benchmarks are scarce, underscoring its practical value in resource-constrained domains. Our framework highlights reasoning-based text supervision as a powerful, cost-effective alternative to traditional annotation-intensive approaches, substantially advancing scalable multimodal model-as-a-judge.

Summary

AI-Generated Summary

PDF272May 27, 2025