ChatPaper.aiChatPaper

MMRefine: Het onthullen van de obstakels voor robuuste verfijning in multimodale grote taalmodellen

MMRefine: Unveiling the Obstacles to Robust Refinement in Multimodal Large Language Models

June 5, 2025
Auteurs: Gio Paik, Geewook Kim, Jinbae Im
cs.AI

Samenvatting

Dit artikel introduceert MMRefine, een MultiModal Refinement benchmark die is ontworpen om de fijnregelingscapaciteiten van Multimodale Grote Taalmodellen (MLLMs) te evalueren. Naarmate de nadruk verschuift naar het verbeteren van redenering tijdens inferentie, biedt MMRefine een raamwerk dat de vaardigheden van MLLMs beoordeelt om fouten te detecteren en te corrigeren in zes verschillende scenario's, verdergaand dan alleen het vergelijken van de uiteindelijke nauwkeurigheid voor en na verfijning. Bovendien analyseert de benchmark de verfijningsprestaties door fouten in zes fouttypes te categoriseren. Experimenten met verschillende open en gesloten MLLMs onthullen knelpunten en factoren die de verfijningsprestaties belemmeren, en benadrukken gebieden voor verbetering in effectieve redeneringsverbetering. Onze code en dataset zijn openbaar beschikbaar op https://github.com/naver-ai/MMRefine.
English
This paper introduces MMRefine, a MultiModal Refinement benchmark designed to evaluate the error refinement capabilities of Multimodal Large Language Models (MLLMs). As the emphasis shifts toward enhancing reasoning during inference, MMRefine provides a framework that evaluates MLLMs' abilities to detect and correct errors across six distinct scenarios beyond just comparing final accuracy before and after refinement. Furthermore, the benchmark analyzes the refinement performance by categorizing errors into six error types. Experiments with various open and closed MLLMs reveal bottlenecks and factors impeding refinement performance, highlighting areas for improvement in effective reasoning enhancement. Our code and dataset are publicly available at https://github.com/naver-ai/MMRefine.
PDF32June 11, 2025