MMRefine: Revelando los Obstáculos para un Refinamiento Robusto en Modelos de Lenguaje Multimodales de Gran Escala
MMRefine: Unveiling the Obstacles to Robust Refinement in Multimodal Large Language Models
June 5, 2025
Autores: Gio Paik, Geewook Kim, Jinbae Im
cs.AI
Resumen
Este artículo presenta MMRefine, un benchmark de Refinamiento Multimodal diseñado para evaluar las capacidades de refinamiento de errores de los Modelos de Lenguaje Multimodales de Gran Escala (MLLMs, por sus siglas en inglés). A medida que el enfoque se desplaza hacia la mejora del razonamiento durante la inferencia, MMRefine proporciona un marco que evalúa las habilidades de los MLLMs para detectar y corregir errores en seis escenarios distintos, más allá de simplemente comparar la precisión final antes y después del refinamiento. Además, el benchmark analiza el rendimiento de refinamiento categorizando los errores en seis tipos. Los experimentos con diversos MLLMs abiertos y cerrados revelan cuellos de botella y factores que obstaculizan el rendimiento de refinamiento, destacando áreas de mejora en la potenciación efectiva del razonamiento. Nuestro código y conjunto de datos están disponibles públicamente en https://github.com/naver-ai/MMRefine.
English
This paper introduces MMRefine, a MultiModal Refinement benchmark designed to
evaluate the error refinement capabilities of Multimodal Large Language Models
(MLLMs). As the emphasis shifts toward enhancing reasoning during inference,
MMRefine provides a framework that evaluates MLLMs' abilities to detect and
correct errors across six distinct scenarios beyond just comparing final
accuracy before and after refinement. Furthermore, the benchmark analyzes the
refinement performance by categorizing errors into six error types. Experiments
with various open and closed MLLMs reveal bottlenecks and factors impeding
refinement performance, highlighting areas for improvement in effective
reasoning enhancement. Our code and dataset are publicly available at
https://github.com/naver-ai/MMRefine.