MMRefine: Het onthullen van de obstakels voor robuuste verfijning in multimodale grote taalmodellen
MMRefine: Unveiling the Obstacles to Robust Refinement in Multimodal Large Language Models
June 5, 2025
Auteurs: Gio Paik, Geewook Kim, Jinbae Im
cs.AI
Samenvatting
Dit artikel introduceert MMRefine, een MultiModal Refinement benchmark die is ontworpen om de fijnregelingscapaciteiten van Multimodale Grote Taalmodellen (MLLMs) te evalueren. Naarmate de nadruk verschuift naar het verbeteren van redenering tijdens inferentie, biedt MMRefine een raamwerk dat de vaardigheden van MLLMs beoordeelt om fouten te detecteren en te corrigeren in zes verschillende scenario's, verdergaand dan alleen het vergelijken van de uiteindelijke nauwkeurigheid voor en na verfijning. Bovendien analyseert de benchmark de verfijningsprestaties door fouten in zes fouttypes te categoriseren. Experimenten met verschillende open en gesloten MLLMs onthullen knelpunten en factoren die de verfijningsprestaties belemmeren, en benadrukken gebieden voor verbetering in effectieve redeneringsverbetering. Onze code en dataset zijn openbaar beschikbaar op https://github.com/naver-ai/MMRefine.
English
This paper introduces MMRefine, a MultiModal Refinement benchmark designed to
evaluate the error refinement capabilities of Multimodal Large Language Models
(MLLMs). As the emphasis shifts toward enhancing reasoning during inference,
MMRefine provides a framework that evaluates MLLMs' abilities to detect and
correct errors across six distinct scenarios beyond just comparing final
accuracy before and after refinement. Furthermore, the benchmark analyzes the
refinement performance by categorizing errors into six error types. Experiments
with various open and closed MLLMs reveal bottlenecks and factors impeding
refinement performance, highlighting areas for improvement in effective
reasoning enhancement. Our code and dataset are publicly available at
https://github.com/naver-ai/MMRefine.