Judge Anything: MLLM как универсальный судья для любых модальностей
Judge Anything: MLLM as a Judge Across Any Modality
March 21, 2025
Авторы: Shu Pu, Yaochen Wang, Dongping Chen, Yuhang Chen, Guohao Wang, Qi Qin, Zhongyi Zhang, Zhiyuan Zhang, Zetong Zhou, Shuang Gong, Yi Gui, Yao Wan, Philip S. Yu
cs.AI
Аннотация
Оценка генеративных базовых моделей на задачах открытого многомодального понимания (MMU) и генерации (MMG) в различных модальностях (например, изображения, аудио, видео) представляет значительные сложности из-за сложности кросс-модальных взаимодействий. В связи с этим возникла идея использования многомодальных языковых моделей (MLLM) в качестве автоматических судей, что уже показало обнадеживающие результаты в оценке задач понимания визуально-текстовой информации. В данной статье мы расширяем подход MLLM-as-a-Judge на все модальности, предлагая унифицированный метод, вводя два бенчмарка: TaskAnything и JudgeAnything, для оценки общей производительности и судейских способностей MLLM в задачах любой-к-любой модальности. В частности, TaskAnything оценивает способности MMU и MMG в 15 категориях любой-к-любой модальности, используя 1500 запросов, отобранных из хорошо зарекомендовавших себя бенчмарков. Кроме того, JudgeAnything оценивает судейские способности 5 передовых моделей (например, GPT-4o и Gemini-2.0-Flash) с точки зрения парного сравнения и оценки баллов, предоставляя стандартизированную тестовую среду, которая включает человеческие суждения и детальные критерии. Наши обширные эксперименты показывают, что, хотя эти MLLM демонстрируют потенциал в оценке MMU (достигая в среднем 66.55% в настройке парного сравнения и 42.79% в настройке оценки баллов), они сталкиваются с серьезными трудностями в задачах MMG (в среднем только 53.37% в настройке парного сравнения и 30.05% в настройке оценки баллов), выявляя кросс-модальные предубеждения и проблемы с галлюцинациями. Для решения этих проблем мы представляем OmniArena, автоматизированную платформу для оценки омни-моделей и многомодальных моделей вознаграждения. Наша работа подчеркивает необходимость более справедливых протоколов оценки и более сильного согласования с человеческими предпочтениями. Исходный код и набор данных доступны по адресу: https://urrealhero.github.io/judgeanythingweb/.
English
Evaluating generative foundation models on open-ended multimodal
understanding (MMU) and generation (MMG) tasks across diverse modalities (e.g.,
images, audio, video) poses significant challenges due to the complexity of
cross-modal interactions. To this end, the idea of utilizing Multimodal LLMs
(MLLMs) as automated judges has emerged, with encouraging results in assessing
vision-language understanding tasks. Moving further, this paper extends
MLLM-as-a-Judge across modalities to a unified manner by introducing two
benchmarks, TaskAnything and JudgeAnything, to respectively evaluate the
overall performance and judging capabilities of MLLMs across any-to-any
modality tasks. Specifically, TaskAnything evaluates the MMU and MMG
capabilities across 15 any-to-any modality categories, employing 1,500 queries
curated from well-established benchmarks. Furthermore, JudgeAnything evaluates
the judging capabilities of 5 advanced (e.g., GPT-4o and Gemini-2.0-Flash) from
the perspectives of Pair Comparison and Score Evaluation, providing a
standardized testbed that incorporates human judgments and detailed rubrics.
Our extensive experiments reveal that while these MLLMs show promise in
assessing MMU (i.e., achieving an average of 66.55% in Pair Comparison setting
and 42.79% in Score Evaluation setting), they encounter significant challenges
with MMG tasks (i.e., averaging only 53.37% in Pair Comparison setting and
30.05% in Score Evaluation setting), exposing cross-modality biases and
hallucination issues. To address this, we present OmniArena, an automated
platform for evaluating omni-models and multimodal reward models. Our work
highlights the need for fairer evaluation protocols and stronger alignment with
human preferences. The source code and dataset are publicly available at:
https://urrealhero.github.io/judgeanythingweb/.Summary
AI-Generated Summary