MMRefine : Révéler les obstacles à un affinement robuste dans les modèles de langage multimodaux de grande taille
MMRefine: Unveiling the Obstacles to Robust Refinement in Multimodal Large Language Models
June 5, 2025
Auteurs: Gio Paik, Geewook Kim, Jinbae Im
cs.AI
Résumé
Cet article présente MMRefine, un benchmark de Raffinement Multimodal conçu pour évaluer les capacités de correction d'erreurs des Modèles de Langage Multimodaux de Grande Taille (MLLMs). Alors que l'accent se déplace vers l'amélioration du raisonnement lors de l'inférence, MMRefine propose un cadre qui évalue les capacités des MLLMs à détecter et corriger les erreurs dans six scénarios distincts, au-delà de la simple comparaison de la précision finale avant et après le raffinement. De plus, le benchmark analyse la performance de raffinement en catégorisant les erreurs en six types d'erreurs. Les expériences menées avec divers MLLMs ouverts et fermés révèlent des goulots d'étranglement et des facteurs entravant la performance de raffinement, mettant en lumière des domaines à améliorer pour un renforcement efficace du raisonnement. Notre code et notre ensemble de données sont disponibles publiquement à l'adresse suivante : https://github.com/naver-ai/MMRefine.
English
This paper introduces MMRefine, a MultiModal Refinement benchmark designed to
evaluate the error refinement capabilities of Multimodal Large Language Models
(MLLMs). As the emphasis shifts toward enhancing reasoning during inference,
MMRefine provides a framework that evaluates MLLMs' abilities to detect and
correct errors across six distinct scenarios beyond just comparing final
accuracy before and after refinement. Furthermore, the benchmark analyzes the
refinement performance by categorizing errors into six error types. Experiments
with various open and closed MLLMs reveal bottlenecks and factors impeding
refinement performance, highlighting areas for improvement in effective
reasoning enhancement. Our code and dataset are publicly available at
https://github.com/naver-ai/MMRefine.