Injection de raisonnement directionnel pour le réglage fin des MLLM
Directional Reasoning Injection for Fine-Tuning MLLMs
October 16, 2025
papers.authors: Chao Huang, Zeliang Zhang, Jiang Liu, Ximeng Sun, Jialian Wu, Xiaodong Yu, Ze Wang, Chenliang Xu, Emad Barsoum, Zicheng Liu
cs.AI
papers.abstract
Les modèles de langage multimodaux de grande taille (MLLMs) progressent rapidement, mais leur capacité de raisonnement reste souvent inférieure à celle de leurs homologues spécialisés dans le texte seul. Les méthodes existantes pour combler cet écart reposent sur un ajustement supervisé à partir de données massives de raisonnement multimodal ou sur l'apprentissage par renforcement, deux approches coûteuses en ressources. Une alternative prometteuse est la fusion de modèles, qui interpole les paramètres entre des LLMs renforcés en raisonnement et des variantes multimodales. Cependant, notre analyse montre que la fusion naïve n'est pas toujours une "solution miracle" : son efficacité varie considérablement selon les familles de modèles, certains (par exemple, LLaVA, Idefics) en bénéficiant tandis que d'autres (par exemple, Qwen) subissent une dégradation des performances. Pour remédier à cela, nous proposons l'Injection Directionnelle de Raisonnement pour l'Ajustement Fin (DRIFT) des MLLMs, une méthode légère qui transfère les connaissances de raisonnement dans l'espace des gradients, sans perturber l'alignement multimodal. DRIFT précalcule un a priori de raisonnement comme la différence dans l'espace des paramètres entre les variantes de raisonnement et multimodales, puis l'utilise pour orienter les gradients lors de l'ajustement fin multimodal. Cette approche préserve la simplicité des pipelines d'ajustement fin supervisé standard tout en permettant un transfert efficace du raisonnement. Des expériences approfondies sur des benchmarks de raisonnement multimodal, notamment MathVista et MathVerse, démontrent que DRIFT améliore systématiquement les performances de raisonnement par rapport à la fusion naïve et à l'ajustement fin supervisé, tout en égalant ou surpassant les méthodes coûteuses en formation à une fraction du coût.
English
Multimodal large language models (MLLMs) are rapidly advancing, yet their
reasoning ability often lags behind that of strong text-only counterparts.
Existing methods to bridge this gap rely on supervised fine-tuning over
large-scale multimodal reasoning data or reinforcement learning, both of which
are resource-intensive. A promising alternative is model merging, which
interpolates parameters between reasoning-enhanced LLMs and multimodal
variants. However, our analysis shows that naive merging is not always a "free
lunch": its effectiveness varies drastically across model families, with some
(e.g., LLaVA, Idefics) benefiting while others (e.g., Qwen) suffer performance
degradation. To address this, we propose Directional Reasoning Injection for
Fine-Tuning (DRIFT) MLLMs, a lightweight method that transfers reasoning
knowledge in the gradient space, without destabilizing multimodal alignment.
DRIFT precomputes a reasoning prior as the parameter-space difference between
reasoning and multimodal variants, then uses it to bias gradients during
multimodal fine-tuning. This approach preserves the simplicity of standard
supervised fine-tuning pipelines while enabling efficient reasoning transfer.
Extensive experiments on multimodal reasoning benchmarks, including MathVista
and MathVerse, demonstrate that DRIFT consistently improves reasoning
performance over naive merging and supervised fine-tuning, while matching or
surpassing training-heavy methods at a fraction of the cost.