Raisonnement et réflexion sans entraînement dans les MLLMs
Training-Free Reasoning and Reflection in MLLMs
May 22, 2025
Auteurs: Hongchen Wei, Zhenzhong Chen
cs.AI
Résumé
Les récents progrès dans les modèles de langage à raisonnement (Reasoning LLMs, par exemple DeepSeek-R1 et OpenAI-o1) ont démontré des capacités de raisonnement impressionnantes grâce à l'apprentissage par renforcement. Cependant, l'extension de ces capacités aux modèles de langage multimodaux (MLLMs) est entravée par les coûts prohibitifs du réentraînement et la rareté des ensembles de données multimodales de haute qualité et vérifiables pour le raisonnement. Ce papier présente le modèle FRANK, un MLLM sans entraînement (training-Free) et similaire à r1, qui confère aux MLLM disponibles sur le marché des capacités de raisonnement et de réflexion, sans aucune mise à jour de gradient ni supervision supplémentaire. Notre idée clé est de découpler la perception et le raisonnement à travers les couches décodeur du MLLM. Plus précisément, nous observons que, par rapport aux couches décodeur plus profondes, les couches décodeur superficielles accordent plus d'attention aux tokens visuels, tandis que les couches décodeur plus profondes se concentrent sur la sémantique textuelle. Cette observation motive une approche de fusion hiérarchique des poids qui combine un MLLM pré-entraîné sur des données visuelles avec un LLM spécialisé dans le raisonnement. À cette fin, nous proposons un mécanisme de fusion en couches, dérivé de Taylor, sous forme fermée, qui intègre la capacité de raisonnement dans les couches décodeur profondes tout en préservant l'ancrage visuel dans les couches décodeur superficielles. Des expériences approfondies sur des benchmarks de raisonnement multimodal difficiles démontrent l'efficacité de notre approche. Sur le benchmark MMMU, notre modèle FRANK-38B atteint une précision de 69,2, surpassant le meilleur modèle de référence, InternVL2.5-38B, de +5,3, et dépasse même le modèle propriétaire GPT-4o. La page d'accueil de notre projet est disponible à l'adresse : http://iip.whu.edu.cn/frank/index.html
English
Recent advances in Reasoning LLMs (e.g., DeepSeek-R1 and OpenAI-o1) have
showcased impressive reasoning capabilities via reinforcement learning.
However, extending these capabilities to Multimodal LLMs (MLLMs) is hampered by
the prohibitive costs of retraining and the scarcity of high-quality,
verifiable multimodal reasoning datasets. This paper introduces FRANK Model, a
training-FRee ANd r1-liKe MLLM that imbues off-the-shelf MLLMs with reasoning
and reflection abilities, without any gradient updates or extra supervision.
Our key insight is to decouple perception and reasoning across MLLM decoder
layers. Specifically, we observe that compared to the deeper decoder layers,
the shallow decoder layers allocate more attention to visual tokens, while the
deeper decoder layers concentrate on textual semantics. This observation
motivates a hierarchical weight merging approach that combines a
visual-pretrained MLLM with a reasoning-specialized LLM. To this end, we
propose a layer-wise, Taylor-derived closed-form fusion mechanism that
integrates reasoning capacity into deep decoder layers while preserving visual
grounding in shallow decoder layers. Extensive experiments on challenging
multimodal reasoning benchmarks demonstrate the effectiveness of our approach.
On the MMMU benchmark, our model FRANK-38B achieves an accuracy of 69.2,
outperforming the strongest baseline InternVL2.5-38B by +5.3, and even
surpasses the proprietary GPT-4o model. Our project homepage is at:
http://iip.whu.edu.cn/frank/index.htmlSummary
AI-Generated Summary