ChatPaper.aiChatPaper

Ragionamento e Riflessione Senza Addestramento nei MLLM

Training-Free Reasoning and Reflection in MLLMs

May 22, 2025
Autori: Hongchen Wei, Zhenzhong Chen
cs.AI

Abstract

I recenti progressi nei modelli linguistici di ragionamento (LLM, ad esempio DeepSeek-R1 e OpenAI-o1) hanno dimostrato capacità di ragionamento impressionanti attraverso l'apprendimento per rinforzo. Tuttavia, estendere queste capacità ai modelli linguistici multimodali (MLLM) è ostacolato dai costi proibitivi del riaddestramento e dalla scarsità di dataset multimodali di ragionamento di alta qualità e verificabili. Questo articolo introduce il modello FRANK, un MLLM training-FRee ANd r1-liKe che conferisce ai modelli MLLM esistenti capacità di ragionamento e riflessione, senza alcun aggiornamento del gradiente o supervisione aggiuntiva. La nostra intuizione chiave è quella di disaccoppiare la percezione e il ragionamento attraverso i livelli del decoder MLLM. In particolare, osserviamo che, rispetto ai livelli più profondi del decoder, i livelli superficiali del decoder dedicano maggiore attenzione ai token visivi, mentre i livelli più profondi si concentrano sulla semantica testuale. Questa osservazione motiva un approccio di fusione gerarchica dei pesi che combina un MLLM preaddestrato su dati visivi con un LLM specializzato nel ragionamento. A tal fine, proponiamo un meccanismo di fusione a livello di layer, derivato da Taylor, che integra la capacità di ragionamento nei livelli profondi del decoder preservando il grounding visivo nei livelli superficiali. Esperimenti estesi su benchmark di ragionamento multimodale complessi dimostrano l'efficacia del nostro approccio. Sul benchmark MMMU, il nostro modello FRANK-38B raggiunge un'accuratezza del 69,2, superando il baseline più forte, InternVL2.5-38B, di +5,3, e supera persino il modello proprietario GPT-4o. La nostra homepage del progetto è disponibile all'indirizzo: http://iip.whu.edu.cn/frank/index.html.
English
Recent advances in Reasoning LLMs (e.g., DeepSeek-R1 and OpenAI-o1) have showcased impressive reasoning capabilities via reinforcement learning. However, extending these capabilities to Multimodal LLMs (MLLMs) is hampered by the prohibitive costs of retraining and the scarcity of high-quality, verifiable multimodal reasoning datasets. This paper introduces FRANK Model, a training-FRee ANd r1-liKe MLLM that imbues off-the-shelf MLLMs with reasoning and reflection abilities, without any gradient updates or extra supervision. Our key insight is to decouple perception and reasoning across MLLM decoder layers. Specifically, we observe that compared to the deeper decoder layers, the shallow decoder layers allocate more attention to visual tokens, while the deeper decoder layers concentrate on textual semantics. This observation motivates a hierarchical weight merging approach that combines a visual-pretrained MLLM with a reasoning-specialized LLM. To this end, we propose a layer-wise, Taylor-derived closed-form fusion mechanism that integrates reasoning capacity into deep decoder layers while preserving visual grounding in shallow decoder layers. Extensive experiments on challenging multimodal reasoning benchmarks demonstrate the effectiveness of our approach. On the MMMU benchmark, our model FRANK-38B achieves an accuracy of 69.2, outperforming the strongest baseline InternVL2.5-38B by +5.3, and even surpasses the proprietary GPT-4o model. Our project homepage is at: http://iip.whu.edu.cn/frank/index.html
PDF95May 23, 2025