Trainingsfreies Schlussfolgern und Reflektieren in MLLMs

papers.abstract

Jüngste Fortschritte bei Reasoning-LLMs (z. B. DeepSeek-R1 und OpenAI-o1) haben beeindruckende Fähigkeiten im Bereich des logischen Denkens durch Reinforcement Learning demonstriert. Die Erweiterung dieser Fähigkeiten auf Multimodale LLMs (MLLMs) wird jedoch durch die prohibitiv hohen Kosten für das erneute Training und den Mangel an hochwertigen, verifizierbaren multimodalen Reasoning-Datensätzen behindert. Dieses Papier stellt das FRANK-Modell vor, ein training-FReies ANd r1-ähnliches MLLM, das Standard-MLLMs mit Reasoning- und Reflexionsfähigkeiten ausstattet, ohne dass Gradientenaktualisierungen oder zusätzliche Überwachung erforderlich sind. Unser zentraler Ansatz besteht darin, Wahrnehmung und logisches Denken über die Decoderschichten des MLLMs zu entkoppeln. Insbesondere beobachten wir, dass im Vergleich zu den tieferen Decoderschichten die flacheren Decoderschichten mehr Aufmerksamkeit auf visuelle Tokens legen, während die tieferen Decoderschichten sich auf textuelle Semantik konzentrieren. Diese Beobachtung motiviert einen hierarchischen Gewichtungsansatz, der ein visuell vortrainiertes MLLM mit einem auf Reasoning spezialisierten LLM kombiniert. Zu diesem Zweck schlagen wir einen schichtweisen, auf Taylor-Reihen basierenden geschlossenen Fusionsmechanismus vor, der die Reasoning-Kapazität in die tiefen Decoderschichten integriert, während die visuelle Verankerung in den flachen Decoderschichten erhalten bleibt. Umfangreiche Experimente auf anspruchsvollen multimodalen Reasoning-Benchmarks demonstrieren die Wirksamkeit unseres Ansatzes. Auf dem MMMU-Benchmark erreicht unser Modell FRANK-38B eine Genauigkeit von 69,2, übertrifft damit den stärksten Baseline InternVL2.5-38B um +5,3 und übertrifft sogar das proprietäre GPT-4o-Modell. Unsere Projekt-Homepage finden Sie unter: http://iip.whu.edu.cn/frank/index.html

English

Recent advances in Reasoning LLMs (e.g., DeepSeek-R1 and OpenAI-o1) have showcased impressive reasoning capabilities via reinforcement learning. However, extending these capabilities to Multimodal LLMs (MLLMs) is hampered by the prohibitive costs of retraining and the scarcity of high-quality, verifiable multimodal reasoning datasets. This paper introduces FRANK Model, a training-FRee ANd r1-liKe MLLM that imbues off-the-shelf MLLMs with reasoning and reflection abilities, without any gradient updates or extra supervision. Our key insight is to decouple perception and reasoning across MLLM decoder layers. Specifically, we observe that compared to the deeper decoder layers, the shallow decoder layers allocate more attention to visual tokens, while the deeper decoder layers concentrate on textual semantics. This observation motivates a hierarchical weight merging approach that combines a visual-pretrained MLLM with a reasoning-specialized LLM. To this end, we propose a layer-wise, Taylor-derived closed-form fusion mechanism that integrates reasoning capacity into deep decoder layers while preserving visual grounding in shallow decoder layers. Extensive experiments on challenging multimodal reasoning benchmarks demonstrate the effectiveness of our approach. On the MMMU benchmark, our model FRANK-38B achieves an accuracy of 69.2, outperforming the strongest baseline InternVL2.5-38B by +5.3, and even surpasses the proprietary GPT-4o model. Our project homepage is at: http://iip.whu.edu.cn/frank/index.html

Trainingsfreies Schlussfolgern und Reflektieren in MLLMs

Training-Free Reasoning and Reflection in MLLMs

papers.abstract

Support