ChatPaper.aiChatPaper

Flex-Judge: Piensa una vez, juzga en cualquier lugar

Flex-Judge: Think Once, Judge Anywhere

May 24, 2025
Autores: Jongwoo Ko, Sungnyun Kim, Sungwoo Cho, Se-Young Yun
cs.AI

Resumen

Las señales de recompensa generadas por humanos son cruciales para alinear los modelos generativos con las preferencias humanas, guiando tanto el entrenamiento como las evaluaciones en tiempo de inferencia. Si bien los modelos de lenguaje de gran escala (LLMs) empleados como evaluadores proxy, es decir, LLM-como-Juez, reducen significativamente los costos asociados con las anotaciones manuales, generalmente requieren extensos datos de entrenamiento específicos de la modalidad y no logran generalizar bien en tareas multimodales diversas. En este artículo, proponemos Flex-Judge, un modelo juez multimodal guiado por razonamiento que aprovecha datos mínimos de razonamiento textual para generalizar robustamente en múltiples modalidades y formatos de evaluación. Nuestra intuición central es que las explicaciones de razonamiento textual estructurado codifican inherentemente patrones de toma de decisiones generalizables, permitiendo una transferencia efectiva a juicios multimodales, por ejemplo, con imágenes o videos. Los resultados empíricos demuestran que Flex-Judge, a pesar de estar entrenado con significativamente menos datos textuales, logra un rendimiento competitivo o superior en comparación con las API comerciales de última generación y los evaluadores multimodales extensamente entrenados. Notablemente, Flex-Judge presenta un impacto amplio en modalidades como las moléculas, donde los puntos de referencia de evaluación integrales son escasos, destacando su valor práctico en dominios con recursos limitados. Nuestro marco resalta la supervisión textual basada en razonamiento como una alternativa poderosa y rentable a los enfoques tradicionales intensivos en anotaciones, avanzando sustancialmente en la escalabilidad del modelo-como-juez multimodal.
English
Human-generated reward signals are critical for aligning generative models with human preferences, guiding both training and inference-time evaluations. While large language models (LLMs) employed as proxy evaluators, i.e., LLM-as-a-Judge, significantly reduce the costs associated with manual annotations, they typically require extensive modality-specific training data and fail to generalize well across diverse multimodal tasks. In this paper, we propose Flex-Judge, a reasoning-guided multimodal judge model that leverages minimal textual reasoning data to robustly generalize across multiple modalities and evaluation formats. Our core intuition is that structured textual reasoning explanations inherently encode generalizable decision-making patterns, enabling an effective transfer to multimodal judgments, e.g., with images or videos. Empirical results demonstrate that Flex-Judge, despite being trained on significantly fewer text data, achieves competitive or superior performance compared to state-of-the-art commercial APIs and extensively trained multimodal evaluators. Notably, Flex-Judge presents broad impact in modalities like molecule, where comprehensive evaluation benchmarks are scarce, underscoring its practical value in resource-constrained domains. Our framework highlights reasoning-based text supervision as a powerful, cost-effective alternative to traditional annotation-intensive approaches, substantially advancing scalable multimodal model-as-a-judge.

Summary

AI-Generated Summary

PDF272May 27, 2025