Training-vrije redenering en reflectie in MLLM's
Training-Free Reasoning and Reflection in MLLMs
May 22, 2025
Auteurs: Hongchen Wei, Zhenzhong Chen
cs.AI
Samenvatting
Recente vooruitgang in Reasoning LLM's (bijv. DeepSeek-R1 en OpenAI-o1) heeft indrukwekkende redeneervaardigheden getoond via reinforcement learning. Het uitbreiden van deze vaardigheden naar Multimodale LLM's (MLLM's) wordt echter belemmerd door de buitensporige kosten van hertraining en het gebrek aan hoogwaardige, verifieerbare multimodale redeneerdatasets. Dit artikel introduceert het FRANK Model, een training-FRee ANd r1-liKe MLLM dat kant-en-klare MLLM's uitrust met redeneer- en reflectievaardigheden, zonder enige gradient-updates of extra supervisie. Onze belangrijkste inzicht is het ontkoppelen van perceptie en redeneren over MLLM-decoderlagen. Specifiek observeren we dat vergeleken met de diepere decoderlagen, de ondiepe decoderlagen meer aandacht besteden aan visuele tokens, terwijl de diepere decoderlagen zich concentreren op tekstuele semantiek. Deze observatie motiveert een hiërarchische gewichtsfusiebenadering die een visueel voorgetrainde MLLM combineert met een op redeneren gespecialiseerde LLM. Hiertoe stellen we een laagsgewijze, Taylor-afgeleide gesloten-vorm fusiemechanisme voor dat redeneercapaciteit integreert in diepe decoderlagen terwijl visuele verankering in ondiepe decoderlagen behouden blijft. Uitgebreide experimenten op uitdagende multimodale redeneerbenchmarks demonstreren de effectiviteit van onze aanpak. Op de MMMU-benchmark behaalt ons model FRANK-38B een nauwkeurigheid van 69,2, wat de sterkste baseline InternVL2.5-38B met +5,3 overtreft, en zelfs het propriëtaire GPT-4o-model overstijgt. Onze projecthomepage is te vinden op: http://iip.whu.edu.cn/frank/index.html
English
Recent advances in Reasoning LLMs (e.g., DeepSeek-R1 and OpenAI-o1) have
showcased impressive reasoning capabilities via reinforcement learning.
However, extending these capabilities to Multimodal LLMs (MLLMs) is hampered by
the prohibitive costs of retraining and the scarcity of high-quality,
verifiable multimodal reasoning datasets. This paper introduces FRANK Model, a
training-FRee ANd r1-liKe MLLM that imbues off-the-shelf MLLMs with reasoning
and reflection abilities, without any gradient updates or extra supervision.
Our key insight is to decouple perception and reasoning across MLLM decoder
layers. Specifically, we observe that compared to the deeper decoder layers,
the shallow decoder layers allocate more attention to visual tokens, while the
deeper decoder layers concentrate on textual semantics. This observation
motivates a hierarchical weight merging approach that combines a
visual-pretrained MLLM with a reasoning-specialized LLM. To this end, we
propose a layer-wise, Taylor-derived closed-form fusion mechanism that
integrates reasoning capacity into deep decoder layers while preserving visual
grounding in shallow decoder layers. Extensive experiments on challenging
multimodal reasoning benchmarks demonstrate the effectiveness of our approach.
On the MMMU benchmark, our model FRANK-38B achieves an accuracy of 69.2,
outperforming the strongest baseline InternVL2.5-38B by +5.3, and even
surpasses the proprietary GPT-4o model. Our project homepage is at:
http://iip.whu.edu.cn/frank/index.html