ChatPaper.aiChatPaper

Flex-Judge: Думай один раз, оценивай где угодно

Flex-Judge: Think Once, Judge Anywhere

May 24, 2025
Авторы: Jongwoo Ko, Sungnyun Kim, Sungwoo Cho, Se-Young Yun
cs.AI

Аннотация

Человеческие сигналы вознаграждения играют ключевую роль в согласовании генеративных моделей с предпочтениями людей, направляя как обучение, так и оценку на этапе вывода. Хотя крупные языковые модели (LLM), используемые в качестве прокси-оценщиков (например, LLM-as-a-Judge), значительно снижают затраты, связанные с ручной аннотацией, они обычно требуют обширных данных для обучения, специфичных для каждой модальности, и плохо обобщаются на разнообразные мультимодальные задачи. В данной работе мы предлагаем Flex-Judge — мультимодальную модель-оценщик, управляемую рассуждениями, которая использует минимальные текстовые данные для рассуждений, чтобы эффективно обобщать знания на множественные модальности и форматы оценки. Основная идея заключается в том, что структурированные текстовые объяснения рассуждений изначально кодируют обобщаемые шаблоны принятия решений, что позволяет эффективно переносить их на мультимодальные оценки, например, с изображениями или видео. Экспериментальные результаты показывают, что Flex-Judge, несмотря на обучение на значительно меньшем объеме текстовых данных, демонстрирует конкурентоспособную или превосходящую производительность по сравнению с современными коммерческими API и мультимодальными оценщиками, обученными на больших объемах данных. Особенно важно, что Flex-Judge демонстрирует широкое влияние в таких модальностях, как молекулы, где отсутствуют комплексные эталонные данные для оценки, подчеркивая его практическую ценность в областях с ограниченными ресурсами. Наш подход подчеркивает, что текстовый контроль на основе рассуждений является мощной и экономически эффективной альтернативой традиционным методам, требующим интенсивной аннотации, что существенно продвигает масштабируемую мультимодальную модель-оценщик.
English
Human-generated reward signals are critical for aligning generative models with human preferences, guiding both training and inference-time evaluations. While large language models (LLMs) employed as proxy evaluators, i.e., LLM-as-a-Judge, significantly reduce the costs associated with manual annotations, they typically require extensive modality-specific training data and fail to generalize well across diverse multimodal tasks. In this paper, we propose Flex-Judge, a reasoning-guided multimodal judge model that leverages minimal textual reasoning data to robustly generalize across multiple modalities and evaluation formats. Our core intuition is that structured textual reasoning explanations inherently encode generalizable decision-making patterns, enabling an effective transfer to multimodal judgments, e.g., with images or videos. Empirical results demonstrate that Flex-Judge, despite being trained on significantly fewer text data, achieves competitive or superior performance compared to state-of-the-art commercial APIs and extensively trained multimodal evaluators. Notably, Flex-Judge presents broad impact in modalities like molecule, where comprehensive evaluation benchmarks are scarce, underscoring its practical value in resource-constrained domains. Our framework highlights reasoning-based text supervision as a powerful, cost-effective alternative to traditional annotation-intensive approaches, substantially advancing scalable multimodal model-as-a-judge.

Summary

AI-Generated Summary

PDF272May 27, 2025