MM-CRITIC: 大規模マルチモーダルモデルのマルチモーダル批評としての総合的評価
MM-CRITIC: A Holistic Evaluation of Large Multimodal Models as Multimodal Critique
November 12, 2025
著者: Gailun Zeng, Ziyang Luo, Hongzhan Lin, Yuchen Tian, Kaixin Li, Ziyang Gong, Jianxiong Guo, Jing Ma
cs.AI
要旨
批判能力は、モデルが自己改善し信頼性の高いAIアシスタントとして機能する上で極めて重要である。言語のみの設定では広く研究されているが、大規模マルチモーダルモデル(LMM)のマルチモーダルな批判については、画像キャプション生成や視覚的推論などのタスクにおける能力の向上にもかかわらず、未だ十分に探究されていない。本研究では、LMMの批判能力を基本、修正、比較の多次元にわたって評価する包括的ベンチマークMM-CRITICを提案する。MM-CRITICは8つの主要タスクタイプと500以上のタスクを網羅し、様々なモデルサイズのLMMからの応答を収集した4471サンプルで構成される。評価の信頼性を高めるため、専門家の知見に基づく正解を評価基準に統合し、GPT-4oが応答の注釈付けと参照批判文の生成を行うように導く。これにより信頼できる判断の基準を提供する。大規模な実験によりMM-CRITICの有効性が検証され、主要LMMの批判能力に関する多次元にわたる総合的な評価が実現した。さらなる分析から、応答品質と批判能力の相関関係、評価次元による批判の難易度の違いなど、いくつかの重要な知見が得られた。コードはhttps://github.com/MichealZeng0420/MM-Criticで公開している。
English
The ability of critique is vital for models to self-improve and serve as reliable AI assistants. While extensively studied in language-only settings, multimodal critique of Large Multimodal Models (LMMs) remains underexplored despite their growing capabilities in tasks like captioning and visual reasoning. In this work, we introduce MM-CRITIC, a holistic benchmark for evaluating the critique ability of LMMs across multiple dimensions: basic, correction, and comparison. Covering 8 main task types and over 500 tasks, MM-CRITIC collects responses from various LMMs with different model sizes and is composed of 4471 samples. To enhance the evaluation reliability, we integrate expert-informed ground answers into scoring rubrics that guide GPT-4o in annotating responses and generating reference critiques, which serve as anchors for trustworthy judgments. Extensive experiments validate the effectiveness of MM-CRITIC and provide a comprehensive assessment of leading LMMs' critique capabilities under multiple dimensions. Further analysis reveals some key insights, including the correlation between response quality and critique, and varying critique difficulty across evaluation dimensions. Our code is available at https://github.com/MichealZeng0420/MM-Critic.