微調整MLLMのための方向性推論注入
Directional Reasoning Injection for Fine-Tuning MLLMs
October 16, 2025
著者: Chao Huang, Zeliang Zhang, Jiang Liu, Ximeng Sun, Jialian Wu, Xiaodong Yu, Ze Wang, Chenliang Xu, Emad Barsoum, Zicheng Liu
cs.AI
要旨
マルチモーダル大規模言語モデル(MLLMs)は急速に進化しているが、その推論能力は強力なテキスト専用モデルに比べてしばしば遅れをとっている。このギャップを埋めるための既存の手法は、大規模なマルチモーダル推論データを用いた教師ありファインチューニングや強化学習に依存しており、いずれもリソース集約的である。有望な代替手法として、推論能力を強化したLLMとマルチモーダルモデルのパラメータを補間するモデルマージングが挙げられる。しかし、我々の分析によると、単純なマージングは必ずしも「無償の利益」をもたらすわけではない:その効果はモデルファミリーによって大きく異なり、LLaVAやIdeficsなどの一部のモデルは恩恵を受ける一方で、Qwenなどの他のモデルは性能低下を招く。この問題に対処するため、我々は「方向性推論注入によるファインチューニング(DRIFT)」を提案する。DRIFTは、マルチモーダルアラインメントを不安定化させることなく、勾配空間で推論知識を転送する軽量な手法である。DRIFTは、推論モデルとマルチモーダルモデルのパラメータ空間の差分を事前に計算し、それをマルチモーダルファインチューニング中の勾配にバイアスとして適用する。このアプローチは、標準的な教師ありファインチューニングパイプラインの簡潔さを保ちつつ、効率的な推論転送を可能にする。MathVistaやMathVerseなどのマルチモーダル推論ベンチマークにおける広範な実験により、DRIFTが単純なマージングや教師ありファインチューニングを上回る一貫した推論性能の向上をもたらし、高コストな手法に匹敵または凌駕する結果を示すことが実証された。
English
Multimodal large language models (MLLMs) are rapidly advancing, yet their
reasoning ability often lags behind that of strong text-only counterparts.
Existing methods to bridge this gap rely on supervised fine-tuning over
large-scale multimodal reasoning data or reinforcement learning, both of which
are resource-intensive. A promising alternative is model merging, which
interpolates parameters between reasoning-enhanced LLMs and multimodal
variants. However, our analysis shows that naive merging is not always a "free
lunch": its effectiveness varies drastically across model families, with some
(e.g., LLaVA, Idefics) benefiting while others (e.g., Qwen) suffer performance
degradation. To address this, we propose Directional Reasoning Injection for
Fine-Tuning (DRIFT) MLLMs, a lightweight method that transfers reasoning
knowledge in the gradient space, without destabilizing multimodal alignment.
DRIFT precomputes a reasoning prior as the parameter-space difference between
reasoning and multimodal variants, then uses it to bias gradients during
multimodal fine-tuning. This approach preserves the simplicity of standard
supervised fine-tuning pipelines while enabling efficient reasoning transfer.
Extensive experiments on multimodal reasoning benchmarks, including MathVista
and MathVerse, demonstrate that DRIFT consistently improves reasoning
performance over naive merging and supervised fine-tuning, while matching or
surpassing training-heavy methods at a fraction of the cost.