ChatPaper.aiChatPaper

UPME: Un Marco de Revisión por Pares No Supervisado para la Evaluación de Modelos de Lenguaje Multimodales a Gran Escala

UPME: An Unsupervised Peer Review Framework for Multimodal Large Language Model Evaluation

March 19, 2025
Autores: Qihui Zhang, Munan Ning, Zheyuan Liu, Yanbo Wang, Jiayi Ye, Yue Huang, Shuo Yang, Xiao Chen, Yibing Song, Li Yuan
cs.AI

Resumen

Los Modelos de Lenguaje Multimodales a Gran Escala (MLLMs, por sus siglas en inglés) han surgido para abordar los desafíos de la Respuesta a Preguntas Visuales (VQA, por sus siglas en inglés), generando un nuevo enfoque de investigación sobre la realización de evaluaciones objetivas de estos modelos. Los métodos de evaluación existentes enfrentan limitaciones debido a la significativa carga de trabajo humana requerida para diseñar pares de preguntas y respuestas para imágenes visuales, lo que inherentemente restringe la escala y el alcance de las evaluaciones. Aunque los enfoques automatizados de MLLM-como-juez intentan reducir la carga de trabajo humana mediante evaluaciones automáticas, a menudo introducen sesgos. Para abordar estos problemas, proponemos un marco de Evaluación de MLLM mediante Revisión por Pares No Supervisada (UPME, por sus siglas en inglés). Este marco utiliza únicamente datos de imágenes, permitiendo que los modelos generen automáticamente preguntas y realicen evaluaciones por pares de las respuestas de otros modelos, aliviando efectivamente la dependencia de la carga de trabajo humana. Además, introducimos un sistema de puntuación visión-lenguaje para mitigar los problemas de sesgo, el cual se centra en tres aspectos: (i) corrección de la respuesta; (ii) comprensión y razonamiento visual; y (iii) correlación imagen-texto. Los resultados experimentales demuestran que UPME alcanza una correlación de Pearson de 0.944 con evaluaciones humanas en el conjunto de datos MMstar y de 0.814 en el conjunto de datos ScienceQA, lo que indica que nuestro marco se alinea estrechamente con los puntos de referencia diseñados por humanos y las preferencias humanas inherentes.
English
Multimodal Large Language Models (MLLMs) have emerged to tackle the challenges of Visual Question Answering (VQA), sparking a new research focus on conducting objective evaluations of these models. Existing evaluation methods face limitations due to the significant human workload required to design Q&A pairs for visual images, which inherently restricts the scale and scope of evaluations. Although automated MLLM-as-judge approaches attempt to reduce the human workload through automatic evaluations, they often introduce biases. To address these problems, we propose an Unsupervised Peer review MLLM Evaluation framework. It utilizes only image data, allowing models to automatically generate questions and conduct peer review assessments of answers from other models, effectively alleviating the reliance on human workload. Additionally, we introduce the vision-language scoring system to mitigate the bias issues, which focuses on three aspects: (i) response correctness; (ii) visual understanding and reasoning; and (iii) image-text correlation. Experimental results demonstrate that UPME achieves a Pearson correlation of 0.944 with human evaluations on the MMstar dataset and 0.814 on the ScienceQA dataset, indicating that our framework closely aligns with human-designed benchmarks and inherent human preferences.
PDF62April 1, 2025