MMRefine: Revelando os Obstáculos ao Refinamento Robusto em Modelos de Linguagem Multimodais de Grande Escala

Resumo

Este artigo apresenta o MMRefine, um benchmark de Refinamento Multimodal projetado para avaliar as capacidades de refinamento de erros dos Modelos de Linguagem Multimodais de Grande Escala (MLLMs). À medida que o foco se desloca para aprimorar o raciocínio durante a inferência, o MMRefine fornece uma estrutura que avalia as habilidades dos MLLMs em detectar e corrigir erros em seis cenários distintos, indo além da simples comparação da precisão final antes e após o refinamento. Além disso, o benchmark analisa o desempenho de refinamento categorizando os erros em seis tipos. Experimentos com diversos MLLMs abertos e fechados revelam gargalos e fatores que impedem o desempenho de refinamento, destacando áreas para melhoria no aprimoramento efetivo do raciocínio. Nosso código e conjunto de dados estão publicamente disponíveis em https://github.com/naver-ai/MMRefine.

English

This paper introduces MMRefine, a MultiModal Refinement benchmark designed to evaluate the error refinement capabilities of Multimodal Large Language Models (MLLMs). As the emphasis shifts toward enhancing reasoning during inference, MMRefine provides a framework that evaluates MLLMs' abilities to detect and correct errors across six distinct scenarios beyond just comparing final accuracy before and after refinement. Furthermore, the benchmark analyzes the refinement performance by categorizing errors into six error types. Experiments with various open and closed MLLMs reveal bottlenecks and factors impeding refinement performance, highlighting areas for improvement in effective reasoning enhancement. Our code and dataset are publicly available at https://github.com/naver-ai/MMRefine.

MMRefine: Revelando os Obstáculos ao Refinamento Robusto em Modelos de Linguagem Multimodais de Grande Escala

MMRefine: Unveiling the Obstacles to Robust Refinement in Multimodal Large Language Models

Resumo

Support