Trainingsfreies Schlussfolgern und Reflektieren in MLLMs
Training-Free Reasoning and Reflection in MLLMs
May 22, 2025
Autoren: Hongchen Wei, Zhenzhong Chen
cs.AI
Zusammenfassung
Jüngste Fortschritte bei Reasoning-LLMs (z. B. DeepSeek-R1 und OpenAI-o1) haben beeindruckende Fähigkeiten im Bereich des logischen Denkens durch Reinforcement Learning demonstriert. Die Erweiterung dieser Fähigkeiten auf Multimodale LLMs (MLLMs) wird jedoch durch die prohibitiv hohen Kosten für das erneute Training und den Mangel an hochwertigen, verifizierbaren multimodalen Reasoning-Datensätzen behindert. Dieses Papier stellt das FRANK-Modell vor, ein training-FReies ANd r1-ähnliches MLLM, das Standard-MLLMs mit Reasoning- und Reflexionsfähigkeiten ausstattet, ohne dass Gradientenaktualisierungen oder zusätzliche Überwachung erforderlich sind. Unser zentraler Ansatz besteht darin, Wahrnehmung und logisches Denken über die Decoderschichten des MLLMs zu entkoppeln. Insbesondere beobachten wir, dass im Vergleich zu den tieferen Decoderschichten die flacheren Decoderschichten mehr Aufmerksamkeit auf visuelle Tokens legen, während die tieferen Decoderschichten sich auf textuelle Semantik konzentrieren. Diese Beobachtung motiviert einen hierarchischen Gewichtungsansatz, der ein visuell vortrainiertes MLLM mit einem auf Reasoning spezialisierten LLM kombiniert. Zu diesem Zweck schlagen wir einen schichtweisen, auf Taylor-Reihen basierenden geschlossenen Fusionsmechanismus vor, der die Reasoning-Kapazität in die tiefen Decoderschichten integriert, während die visuelle Verankerung in den flachen Decoderschichten erhalten bleibt. Umfangreiche Experimente auf anspruchsvollen multimodalen Reasoning-Benchmarks demonstrieren die Wirksamkeit unseres Ansatzes. Auf dem MMMU-Benchmark erreicht unser Modell FRANK-38B eine Genauigkeit von 69,2, übertrifft damit den stärksten Baseline InternVL2.5-38B um +5,3 und übertrifft sogar das proprietäre GPT-4o-Modell. Unsere Projekt-Homepage finden Sie unter: http://iip.whu.edu.cn/frank/index.html
English
Recent advances in Reasoning LLMs (e.g., DeepSeek-R1 and OpenAI-o1) have
showcased impressive reasoning capabilities via reinforcement learning.
However, extending these capabilities to Multimodal LLMs (MLLMs) is hampered by
the prohibitive costs of retraining and the scarcity of high-quality,
verifiable multimodal reasoning datasets. This paper introduces FRANK Model, a
training-FRee ANd r1-liKe MLLM that imbues off-the-shelf MLLMs with reasoning
and reflection abilities, without any gradient updates or extra supervision.
Our key insight is to decouple perception and reasoning across MLLM decoder
layers. Specifically, we observe that compared to the deeper decoder layers,
the shallow decoder layers allocate more attention to visual tokens, while the
deeper decoder layers concentrate on textual semantics. This observation
motivates a hierarchical weight merging approach that combines a
visual-pretrained MLLM with a reasoning-specialized LLM. To this end, we
propose a layer-wise, Taylor-derived closed-form fusion mechanism that
integrates reasoning capacity into deep decoder layers while preserving visual
grounding in shallow decoder layers. Extensive experiments on challenging
multimodal reasoning benchmarks demonstrate the effectiveness of our approach.
On the MMMU benchmark, our model FRANK-38B achieves an accuracy of 69.2,
outperforming the strongest baseline InternVL2.5-38B by +5.3, and even
surpasses the proprietary GPT-4o model. Our project homepage is at:
http://iip.whu.edu.cn/frank/index.htmlSummary
AI-Generated Summary