ChatPaper.aiChatPaper

Raciocínio e Reflexão sem Treinamento em MLLMs

Training-Free Reasoning and Reflection in MLLMs

May 22, 2025
Autores: Hongchen Wei, Zhenzhong Chen
cs.AI

Resumo

Os recentes avanços em LLMs de raciocínio (por exemplo, DeepSeek-R1 e OpenAI-o1) demonstraram capacidades impressionantes de raciocínio por meio de aprendizado por reforço. No entanto, estender essas capacidades para LLMs Multimodais (MLLMs) é dificultado pelos custos proibitivos de retreinamento e pela escassez de conjuntos de dados multimodais de raciocínio de alta qualidade e verificáveis. Este artigo apresenta o Modelo FRANK, um MLLM sem treinamento (FRee ANd r1-liKe) que confere a MLLMs prontos para uso habilidades de raciocínio e reflexão, sem qualquer atualização de gradiente ou supervisão adicional. Nossa principal percepção é desacoplar a percepção e o raciocínio entre as camadas do decodificador do MLLM. Especificamente, observamos que, em comparação com as camadas mais profundas do decodificador, as camadas mais superficiais alocam mais atenção aos tokens visuais, enquanto as camadas mais profundas se concentram na semântica textual. Essa observação motiva uma abordagem de fusão hierárquica de pesos que combina um MLLM pré-treinado visualmente com um LLM especializado em raciocínio. Para isso, propomos um mecanismo de fusão em camadas, derivado de Taylor, que integra a capacidade de raciocínio nas camadas profundas do decodificador, preservando a fundamentação visual nas camadas superficiais. Experimentos extensos em benchmarks desafiadores de raciocínio multimodal demonstram a eficácia de nossa abordagem. No benchmark MMMU, nosso modelo FRANK-38B alcança uma precisão de 69,2, superando o baseline mais forte, InternVL2.5-38B, em +5,3, e até mesmo ultrapassando o modelo proprietário GPT-4o. A página inicial do nosso projeto está em: http://iip.whu.edu.cn/frank/index.html
English
Recent advances in Reasoning LLMs (e.g., DeepSeek-R1 and OpenAI-o1) have showcased impressive reasoning capabilities via reinforcement learning. However, extending these capabilities to Multimodal LLMs (MLLMs) is hampered by the prohibitive costs of retraining and the scarcity of high-quality, verifiable multimodal reasoning datasets. This paper introduces FRANK Model, a training-FRee ANd r1-liKe MLLM that imbues off-the-shelf MLLMs with reasoning and reflection abilities, without any gradient updates or extra supervision. Our key insight is to decouple perception and reasoning across MLLM decoder layers. Specifically, we observe that compared to the deeper decoder layers, the shallow decoder layers allocate more attention to visual tokens, while the deeper decoder layers concentrate on textual semantics. This observation motivates a hierarchical weight merging approach that combines a visual-pretrained MLLM with a reasoning-specialized LLM. To this end, we propose a layer-wise, Taylor-derived closed-form fusion mechanism that integrates reasoning capacity into deep decoder layers while preserving visual grounding in shallow decoder layers. Extensive experiments on challenging multimodal reasoning benchmarks demonstrate the effectiveness of our approach. On the MMMU benchmark, our model FRANK-38B achieves an accuracy of 69.2, outperforming the strongest baseline InternVL2.5-38B by +5.3, and even surpasses the proprietary GPT-4o model. Our project homepage is at: http://iip.whu.edu.cn/frank/index.html
PDF95December 14, 2025