MM-CRITIC: Una Evaluación Integral de los Grandes Modelos Multimodales como Crítica Multimodal

Resumen

La capacidad crítica es vital para que los modelos puedan automejorarse y funcionar como asistentes de IA confiables. Aunque ha sido ampliamente estudiada en entornos exclusivamente lingüísticos, la crítica multimodal de los Modelos Multimodales Grandes (LMM) sigue estando poco explorada, a pesar de sus crecientes capacidades en tareas como la generación de subtítulos o el razonamiento visual. En este trabajo, presentamos MM-CRITIC, un benchmark holístico para evaluar la capacidad crítica de los LMM en múltiples dimensiones: básica, de corrección y de comparación. Abarcando 8 tipos principales de tareas y más de 500 tareas, MM-CRITIC recopila respuestas de varios LMM con diferentes tamaños de modelo y está compuesto por 4471 muestras. Para aumentar la fiabilidad de la evaluación, integramos respuestas de referencia informadas por expertos en rúbricas de puntuación que guían a GPT-4o en la anotación de respuestas y la generación de críticas de referencia, que sirven como anclas para juicios confiables. Experimentos exhaustivos validan la efectividad de MM-CRITIC y proporcionan una evaluación integral de las capacidades críticas de los principales LMM bajo múltiples dimensiones. Un análisis más profundo revela algunas ideas clave, incluyendo la correlación entre la calidad de la respuesta y la crítica, y la variación en la dificultad crítica entre las dimensiones de evaluación. Nuestro código está disponible en https://github.com/MichealZeng0420/MM-Critic.

English

The ability of critique is vital for models to self-improve and serve as reliable AI assistants. While extensively studied in language-only settings, multimodal critique of Large Multimodal Models (LMMs) remains underexplored despite their growing capabilities in tasks like captioning and visual reasoning. In this work, we introduce MM-CRITIC, a holistic benchmark for evaluating the critique ability of LMMs across multiple dimensions: basic, correction, and comparison. Covering 8 main task types and over 500 tasks, MM-CRITIC collects responses from various LMMs with different model sizes and is composed of 4471 samples. To enhance the evaluation reliability, we integrate expert-informed ground answers into scoring rubrics that guide GPT-4o in annotating responses and generating reference critiques, which serve as anchors for trustworthy judgments. Extensive experiments validate the effectiveness of MM-CRITIC and provide a comprehensive assessment of leading LMMs' critique capabilities under multiple dimensions. Further analysis reveals some key insights, including the correlation between response quality and critique, and varying critique difficulty across evaluation dimensions. Our code is available at https://github.com/MichealZeng0420/MM-Critic.

MM-CRITIC: Una Evaluación Integral de los Grandes Modelos Multimodales como Crítica Multimodal

MM-CRITIC: A Holistic Evaluation of Large Multimodal Models as Multimodal Critique

Resumen

Support