ChatPaper.aiChatPaper

MM-CRITIC: 대규모 멀티모달 모델의 멀티모달 비판 능력에 대한 종합적 평가

MM-CRITIC: A Holistic Evaluation of Large Multimodal Models as Multimodal Critique

November 12, 2025
저자: Gailun Zeng, Ziyang Luo, Hongzhan Lin, Yuchen Tian, Kaixin Li, Ziyang Gong, Jianxiong Guo, Jing Ma
cs.AI

초록

비판 능력은 모델의 자기 개선과 신뢰할 수 있는 AI 어시스턴트로서의 역할에 핵심적입니다. 언어 전용 환경에서는 광범위하게 연구되었지만, 캡셔닝 및 시각적 추론과 같은 작업에서의 성능 향상에도 불구하고 대규모 멀티모달 모델(LMM)의 멀티모달 비판 능력은 아직 충분히 탐구되지 않았습니다. 본 연구에서는 기본, 수정, 비교라는 다차원에 걸쳐 LMM의 비판 능력을 평가하기 위한 종합 벤치마크인 MM-CRITIC을 소개합니다. MM-CRITIC은 8가지 주요 작업 유형과 500개 이상의 작업을 포괄하며, 다양한 모델 크기의 LMM 응답을 수집하여 총 4,471개의 샘플로 구성됩니다. 평가 신뢰성을 높이기 위해 전문가 기반 정답을 채점 기준에 통합하여 GPT-4o가 응답을 주석 처리하고 참조 비판을 생성하도록 유도하며, 이를 신뢰할 수 있는 판단의 기준점으로 활용합니다. 대규모 실험을 통해 MM-CRITIC의 효과성을 검증하고 선도적인 LMM들의 다차원적 비판 능력에 대한 포괄적인 평가를 제공합니다. 추가 분석을 통해 응답 품질과 비판 간의 상관관계, 평가 차원별 상이한 비판 난이도 등 주요 통찰력을 도출합니다. 코드는 https://github.com/MichealZeng0420/MM-Critic에서 확인할 수 있습니다.
English
The ability of critique is vital for models to self-improve and serve as reliable AI assistants. While extensively studied in language-only settings, multimodal critique of Large Multimodal Models (LMMs) remains underexplored despite their growing capabilities in tasks like captioning and visual reasoning. In this work, we introduce MM-CRITIC, a holistic benchmark for evaluating the critique ability of LMMs across multiple dimensions: basic, correction, and comparison. Covering 8 main task types and over 500 tasks, MM-CRITIC collects responses from various LMMs with different model sizes and is composed of 4471 samples. To enhance the evaluation reliability, we integrate expert-informed ground answers into scoring rubrics that guide GPT-4o in annotating responses and generating reference critiques, which serve as anchors for trustworthy judgments. Extensive experiments validate the effectiveness of MM-CRITIC and provide a comprehensive assessment of leading LMMs' critique capabilities under multiple dimensions. Further analysis reveals some key insights, including the correlation between response quality and critique, and varying critique difficulty across evaluation dimensions. Our code is available at https://github.com/MichealZeng0420/MM-Critic.
PDF22December 1, 2025