Directionele Redeneringsinjectie voor Fine-Tuning van MLLM's
Directional Reasoning Injection for Fine-Tuning MLLMs
October 16, 2025
Auteurs: Chao Huang, Zeliang Zhang, Jiang Liu, Ximeng Sun, Jialian Wu, Xiaodong Yu, Ze Wang, Chenliang Xu, Emad Barsoum, Zicheng Liu
cs.AI
Samenvatting
Multimodale grote taalmodellen (MLLMs) maken een snelle vooruitgang, maar hun redeneervermogen blijft vaak achter bij dat van sterke tekstgebaseerde tegenhangers. Bestaande methoden om deze kloof te overbruggen, zijn gebaseerd op supervised fine-tuning over grootschalige multimodale redeneergegevens of reinforcement learning, die beide resource-intensief zijn. Een veelbelovend alternatief is modelmerging, waarbij parameters worden geïnterpoleerd tussen redenering-versterkte LLMs en multimodale varianten. Uit onze analyse blijkt echter dat naïeve merging niet altijd een "gratis voordeel" biedt: de effectiviteit ervan varieert sterk tussen modelfamilies, waarbij sommige (bijv. LLaVA, Idefics) profiteren terwijl andere (bijv. Qwen) prestatieverlies ondervinden. Om dit aan te pakken, stellen we Directional Reasoning Injection for Fine-Tuning (DRIFT) MLLMs voor, een lichtgewicht methode die redeneerkennis overdraagt in de gradientruimte, zonder de multimodale uitlijning te destabiliseren. DRIFT berekent vooraf een redeneerprior als het parameterruimteverschil tussen redenering- en multimodale varianten, en gebruikt dit om de gradients te beïnvloeden tijdens multimodale fine-tuning. Deze benadering behoudt de eenvoud van standaard supervised fine-tuning pijplijnen, terwijl efficiënte kennisoverdracht mogelijk wordt. Uitgebreide experimenten op multimodale redeneerbenchmarks, waaronder MathVista en MathVerse, tonen aan dat DRIFT consistent betere redeneerprestaties levert dan naïeve merging en supervised fine-tuning, en tegelijkertijd zware trainingsmethoden evenaart of overtreft tegen een fractie van de kosten.
English
Multimodal large language models (MLLMs) are rapidly advancing, yet their
reasoning ability often lags behind that of strong text-only counterparts.
Existing methods to bridge this gap rely on supervised fine-tuning over
large-scale multimodal reasoning data or reinforcement learning, both of which
are resource-intensive. A promising alternative is model merging, which
interpolates parameters between reasoning-enhanced LLMs and multimodal
variants. However, our analysis shows that naive merging is not always a "free
lunch": its effectiveness varies drastically across model families, with some
(e.g., LLaVA, Idefics) benefiting while others (e.g., Qwen) suffer performance
degradation. To address this, we propose Directional Reasoning Injection for
Fine-Tuning (DRIFT) MLLMs, a lightweight method that transfers reasoning
knowledge in the gradient space, without destabilizing multimodal alignment.
DRIFT precomputes a reasoning prior as the parameter-space difference between
reasoning and multimodal variants, then uses it to bias gradients during
multimodal fine-tuning. This approach preserves the simplicity of standard
supervised fine-tuning pipelines while enabling efficient reasoning transfer.
Extensive experiments on multimodal reasoning benchmarks, including MathVista
and MathVerse, demonstrate that DRIFT consistently improves reasoning
performance over naive merging and supervised fine-tuning, while matching or
surpassing training-heavy methods at a fraction of the cost.