Richtungsbezogene Inferenzeinbindung zur Feinabstimmung von MLLMs
Directional Reasoning Injection for Fine-Tuning MLLMs
October 16, 2025
papers.authors: Chao Huang, Zeliang Zhang, Jiang Liu, Ximeng Sun, Jialian Wu, Xiaodong Yu, Ze Wang, Chenliang Xu, Emad Barsoum, Zicheng Liu
cs.AI
papers.abstract
Multimodale große Sprachmodelle (MLLMs) schreiten rasch voran, doch ihre Fähigkeit zum logischen Schlussfolgern bleibt oft hinter der starker textbasierter Modelle zurück. Bestehende Methoden, um diese Lücke zu schließen, basieren auf überwachtem Feinabstimmen über groß angelegte multimodale Schlussfolgerungsdaten oder auf Verstärkungslernen, die beide ressourcenintensiv sind. Eine vielversprechende Alternative ist das Modellzusammenführen, bei dem Parameter zwischen schlussfolgerungsoptimierten LLMs und multimodalen Varianten interpoliert werden. Unsere Analyse zeigt jedoch, dass naives Zusammenführen nicht immer ein „kostenloser Gewinn“ ist: Seine Wirksamkeit variiert stark zwischen Modellfamilien, wobei einige (z. B. LLaVA, Idefics) profitieren, während andere (z. B. Qwen) Leistungseinbußen erleiden. Um dies zu adressieren, schlagen wir Directional Reasoning Injection for Fine-Tuning (DRIFT) MLLMs vor, eine leichtgewichtige Methode, die Schlussfolgerungswissen im Gradientenraum überträgt, ohne die multimodale Ausrichtung zu destabilisieren. DRIFT berechnet im Voraus einen Schlussfolgerungsprior als Parameterraumdifferenz zwischen schlussfolgerungsoptimierten und multimodalen Varianten und nutzt diesen, um Gradienten während des multimodalen Feinabstimmens zu beeinflussen. Dieser Ansatz bewahrt die Einfachheit standardmäßiger überwachter Feinabstimmungspipelines und ermöglicht gleichzeitig einen effizienten Transfer von Schlussfolgerungswissen. Umfangreiche Experimente auf multimodalen Schlussfolgerungsbenchmarks, einschließlich MathVista und MathVerse, zeigen, dass DRIFT die Leistung beim logischen Schlussfolgern im Vergleich zu naivem Zusammenführen und überwachtem Feinabstimmen konsequent verbessert und dabei ressourcenintensive Methoden bei einem Bruchteil der Kosten erreicht oder übertrifft.
English
Multimodal large language models (MLLMs) are rapidly advancing, yet their
reasoning ability often lags behind that of strong text-only counterparts.
Existing methods to bridge this gap rely on supervised fine-tuning over
large-scale multimodal reasoning data or reinforcement learning, both of which
are resource-intensive. A promising alternative is model merging, which
interpolates parameters between reasoning-enhanced LLMs and multimodal
variants. However, our analysis shows that naive merging is not always a "free
lunch": its effectiveness varies drastically across model families, with some
(e.g., LLaVA, Idefics) benefiting while others (e.g., Qwen) suffer performance
degradation. To address this, we propose Directional Reasoning Injection for
Fine-Tuning (DRIFT) MLLMs, a lightweight method that transfers reasoning
knowledge in the gradient space, without destabilizing multimodal alignment.
DRIFT precomputes a reasoning prior as the parameter-space difference between
reasoning and multimodal variants, then uses it to bias gradients during
multimodal fine-tuning. This approach preserves the simplicity of standard
supervised fine-tuning pipelines while enabling efficient reasoning transfer.
Extensive experiments on multimodal reasoning benchmarks, including MathVista
and MathVerse, demonstrate that DRIFT consistently improves reasoning
performance over naive merging and supervised fine-tuning, while matching or
surpassing training-heavy methods at a fraction of the cost.