ChatPaper.aiChatPaper

Flex-Judge: Denk Eens, Beoordeel Overal

Flex-Judge: Think Once, Judge Anywhere

May 24, 2025
Auteurs: Jongwoo Ko, Sungnyun Kim, Sungwoo Cho, Se-Young Yun
cs.AI

Samenvatting

Door mensen gegenereerde beloningssignalen zijn cruciaal voor het afstemmen van generatieve modellen op menselijke voorkeuren, en begeleiden zowel de training als de evaluaties tijdens de inferentie. Hoewel grote taalmmodellen (LLM's) die worden ingezet als proxy-evaluatoren, d.w.z. LLM-as-a-Judge, de kosten die gepaard gaan met handmatige annotaties aanzienlijk verminderen, hebben ze doorgaans uitgebreide modalitiespecifieke trainingsdata nodig en slagen ze er niet goed in om te generaliseren over diverse multimodale taken. In dit artikel stellen we Flex-Judge voor, een redeneringsgestuurd multimodaal beoordelingsmodel dat minimale tekstuele redeneringsdata benut om robuust te generaliseren over meerdere modaliteiten en evaluatieformaten. Onze kernintuïtie is dat gestructureerde tekstuele redeneringsverklaringen inherent generaliseerbare besluitvormingspatronen coderen, waardoor een effectieve overdracht naar multimodale beoordelingen mogelijk wordt, bijvoorbeeld met afbeeldingen of video's. Empirische resultaten tonen aan dat Flex-Judge, ondanks dat het getraind is op aanzienlijk minder tekstdata, competitieve of superieure prestaties bereikt in vergelijking met state-of-the-art commerciële API's en uitgebreid getrainde multimodale evaluatoren. Opmerkelijk is dat Flex-Judge een brede impact heeft in modaliteiten zoals moleculen, waar uitgebreide evaluatiebenchmarks schaars zijn, wat het praktische belang ervan in domeinen met beperkte middelen onderstreept. Ons framework benadrukt redeneringsgebaseerde tekstsupervisie als een krachtig, kosteneffectief alternatief voor traditionele annotatie-intensieve benaderingen, wat een aanzienlijke vooruitgang betekent in schaalbare multimodale model-as-a-judge.
English
Human-generated reward signals are critical for aligning generative models with human preferences, guiding both training and inference-time evaluations. While large language models (LLMs) employed as proxy evaluators, i.e., LLM-as-a-Judge, significantly reduce the costs associated with manual annotations, they typically require extensive modality-specific training data and fail to generalize well across diverse multimodal tasks. In this paper, we propose Flex-Judge, a reasoning-guided multimodal judge model that leverages minimal textual reasoning data to robustly generalize across multiple modalities and evaluation formats. Our core intuition is that structured textual reasoning explanations inherently encode generalizable decision-making patterns, enabling an effective transfer to multimodal judgments, e.g., with images or videos. Empirical results demonstrate that Flex-Judge, despite being trained on significantly fewer text data, achieves competitive or superior performance compared to state-of-the-art commercial APIs and extensively trained multimodal evaluators. Notably, Flex-Judge presents broad impact in modalities like molecule, where comprehensive evaluation benchmarks are scarce, underscoring its practical value in resource-constrained domains. Our framework highlights reasoning-based text supervision as a powerful, cost-effective alternative to traditional annotation-intensive approaches, substantially advancing scalable multimodal model-as-a-judge.
PDF272May 27, 2025