ChatPaper.aiChatPaper

UPME: Uma Estrutura de Revisão por Pares Não Supervisionada para Avaliação de Modelos de Linguagem Multimodais de Grande Escala

UPME: An Unsupervised Peer Review Framework for Multimodal Large Language Model Evaluation

March 19, 2025
Autores: Qihui Zhang, Munan Ning, Zheyuan Liu, Yanbo Wang, Jiayi Ye, Yue Huang, Shuo Yang, Xiao Chen, Yibing Song, Li Yuan
cs.AI

Resumo

Modelos de Linguagem Multimodais de Grande Escala (MLLMs) surgiram para enfrentar os desafios da Resposta a Perguntas Visuais (VQA), despertando um novo foco de pesquisa na realização de avaliações objetivas desses modelos. Os métodos de avaliação existentes enfrentam limitações devido à significativa carga de trabalho humana necessária para projetar pares de perguntas e respostas para imagens visuais, o que inerentemente restringe a escala e o escopo das avaliações. Embora abordagens automatizadas de MLLM-como-juiz tentem reduzir a carga de trabalho humana por meio de avaliações automáticas, elas frequentemente introduzem vieses. Para resolver esses problemas, propomos uma estrutura de Avaliação de MLLM por Revisão por Pares Não Supervisionada. Ela utiliza apenas dados de imagem, permitindo que os modelos gerem automaticamente perguntas e realizem avaliações por pares das respostas de outros modelos, aliviando efetivamente a dependência da carga de trabalho humana. Além disso, introduzimos o sistema de pontuação visão-linguagem para mitigar os problemas de viés, que se concentra em três aspectos: (i) correção da resposta; (ii) compreensão e raciocínio visual; e (iii) correlação imagem-texto. Os resultados experimentais demonstram que o UPME alcança uma correlação de Pearson de 0,944 com avaliações humanas no conjunto de dados MMstar e 0,814 no conjunto de dados ScienceQA, indicando que nossa estrutura está alinhada de perto com benchmarks projetados por humanos e preferências humanas inerentes.
English
Multimodal Large Language Models (MLLMs) have emerged to tackle the challenges of Visual Question Answering (VQA), sparking a new research focus on conducting objective evaluations of these models. Existing evaluation methods face limitations due to the significant human workload required to design Q&A pairs for visual images, which inherently restricts the scale and scope of evaluations. Although automated MLLM-as-judge approaches attempt to reduce the human workload through automatic evaluations, they often introduce biases. To address these problems, we propose an Unsupervised Peer review MLLM Evaluation framework. It utilizes only image data, allowing models to automatically generate questions and conduct peer review assessments of answers from other models, effectively alleviating the reliance on human workload. Additionally, we introduce the vision-language scoring system to mitigate the bias issues, which focuses on three aspects: (i) response correctness; (ii) visual understanding and reasoning; and (iii) image-text correlation. Experimental results demonstrate that UPME achieves a Pearson correlation of 0.944 with human evaluations on the MMstar dataset and 0.814 on the ScienceQA dataset, indicating that our framework closely aligns with human-designed benchmarks and inherent human preferences.

Summary

AI-Generated Summary

PDF62April 1, 2025