ChatPaper.aiChatPaper

Flex-Judge: Pensa una volta, Giudica ovunque

Flex-Judge: Think Once, Judge Anywhere

May 24, 2025
Autori: Jongwoo Ko, Sungnyun Kim, Sungwoo Cho, Se-Young Yun
cs.AI

Abstract

I segnali di ricompensa generati dall'uomo sono cruciali per allineare i modelli generativi alle preferenze umane, guidando sia l'addestramento che le valutazioni durante l'inferenza. Sebbene i grandi modelli linguistici (LLM) impiegati come valutatori proxy, ovvero LLM-as-a-Judge, riducano significativamente i costi associati alle annotazioni manuali, richiedono tipicamente dati di addestramento specifici per ogni modalità e non riescono a generalizzare bene su compiti multimodali diversi. In questo articolo, proponiamo Flex-Judge, un modello di valutazione multimodale guidato dal ragionamento che sfrutta dati minimi di ragionamento testuale per generalizzare in modo robusto su più modalità e formati di valutazione. La nostra intuizione principale è che le spiegazioni di ragionamento testuale strutturato codifichino intrinsecamente schemi decisionali generalizzabili, consentendo un trasferimento efficace a giudizi multimodali, ad esempio con immagini o video. I risultati empirici dimostrano che Flex-Judge, nonostante sia addestrato su un numero significativamente inferiore di dati testuali, raggiunge prestazioni competitive o superiori rispetto alle API commerciali all'avanguardia e ai valutatori multimodali ampiamente addestrati. In particolare, Flex-Judge mostra un impatto ampio in modalità come le molecole, dove sono scarsi i benchmark di valutazione completi, sottolineando il suo valore pratico in domini con risorse limitate. Il nostro framework evidenzia la supervisione testuale basata sul ragionamento come un'alternativa potente ed economicamente vantaggiosa agli approcci tradizionali intensivi di annotazione, avanzando sostanzialmente la scalabilità del modello-as-a-judge multimodale.
English
Human-generated reward signals are critical for aligning generative models with human preferences, guiding both training and inference-time evaluations. While large language models (LLMs) employed as proxy evaluators, i.e., LLM-as-a-Judge, significantly reduce the costs associated with manual annotations, they typically require extensive modality-specific training data and fail to generalize well across diverse multimodal tasks. In this paper, we propose Flex-Judge, a reasoning-guided multimodal judge model that leverages minimal textual reasoning data to robustly generalize across multiple modalities and evaluation formats. Our core intuition is that structured textual reasoning explanations inherently encode generalizable decision-making patterns, enabling an effective transfer to multimodal judgments, e.g., with images or videos. Empirical results demonstrate that Flex-Judge, despite being trained on significantly fewer text data, achieves competitive or superior performance compared to state-of-the-art commercial APIs and extensively trained multimodal evaluators. Notably, Flex-Judge presents broad impact in modalities like molecule, where comprehensive evaluation benchmarks are scarce, underscoring its practical value in resource-constrained domains. Our framework highlights reasoning-based text supervision as a powerful, cost-effective alternative to traditional annotation-intensive approaches, substantially advancing scalable multimodal model-as-a-judge.
PDF282May 27, 2025