MMRefine: Revelando os Obstáculos ao Refinamento Robusto em Modelos de Linguagem Multimodais de Grande Escala
MMRefine: Unveiling the Obstacles to Robust Refinement in Multimodal Large Language Models
June 5, 2025
Autores: Gio Paik, Geewook Kim, Jinbae Im
cs.AI
Resumo
Este artigo apresenta o MMRefine, um benchmark de Refinamento Multimodal projetado para avaliar as capacidades de refinamento de erros dos Modelos de Linguagem Multimodais de Grande Escala (MLLMs). À medida que o foco se desloca para aprimorar o raciocínio durante a inferência, o MMRefine fornece uma estrutura que avalia as habilidades dos MLLMs em detectar e corrigir erros em seis cenários distintos, indo além da simples comparação da precisão final antes e após o refinamento. Além disso, o benchmark analisa o desempenho de refinamento categorizando os erros em seis tipos. Experimentos com diversos MLLMs abertos e fechados revelam gargalos e fatores que impedem o desempenho de refinamento, destacando áreas para melhoria no aprimoramento efetivo do raciocínio. Nosso código e conjunto de dados estão publicamente disponíveis em https://github.com/naver-ai/MMRefine.
English
This paper introduces MMRefine, a MultiModal Refinement benchmark designed to
evaluate the error refinement capabilities of Multimodal Large Language Models
(MLLMs). As the emphasis shifts toward enhancing reasoning during inference,
MMRefine provides a framework that evaluates MLLMs' abilities to detect and
correct errors across six distinct scenarios beyond just comparing final
accuracy before and after refinement. Furthermore, the benchmark analyzes the
refinement performance by categorizing errors into six error types. Experiments
with various open and closed MLLMs reveal bottlenecks and factors impeding
refinement performance, highlighting areas for improvement in effective
reasoning enhancement. Our code and dataset are publicly available at
https://github.com/naver-ai/MMRefine.