Iniezione di Ragionamento Direzionale per il Fine-Tuning di MLLM
Directional Reasoning Injection for Fine-Tuning MLLMs
October 16, 2025
Autori: Chao Huang, Zeliang Zhang, Jiang Liu, Ximeng Sun, Jialian Wu, Xiaodong Yu, Ze Wang, Chenliang Xu, Emad Barsoum, Zicheng Liu
cs.AI
Abstract
I modelli linguistici multimodali di grandi dimensioni (MLLM) stanno avanzando rapidamente, ma la loro capacità di ragionamento spesso rimane indietro rispetto a quella delle controparti basate esclusivamente su testo. I metodi esistenti per colmare questa lacuna si basano su un affinamento supervisionato su larga scala di dati di ragionamento multimodale o sull'apprendimento per rinforzo, entrambi intensivi in termini di risorse. Un'alternativa promettente è la fusione di modelli, che interpola i parametri tra LLM potenziati per il ragionamento e varianti multimodali. Tuttavia, la nostra analisi mostra che una fusione ingenua non è sempre una "soluzione gratuita": la sua efficacia varia drasticamente tra le famiglie di modelli, con alcuni (ad esempio, LLaVA, Idefics) che ne traggono beneficio mentre altri (ad esempio, Qwen) subiscono un degrado delle prestazioni. Per affrontare questo problema, proponiamo l'Iniezione Direzionale di Ragionamento per l'Affinamento (DRIFT) degli MLLM, un metodo leggero che trasferisce la conoscenza del ragionamento nello spazio dei gradienti, senza destabilizzare l'allineamento multimodale. DRIFT precalcola un prior di ragionamento come differenza nello spazio dei parametri tra le varianti di ragionamento e quelle multimodali, quindi lo utilizza per influenzare i gradienti durante l'affinamento multimodale. Questo approccio preserva la semplicità delle pipeline standard di affinamento supervisionato, consentendo un trasferimento efficiente del ragionamento. Esperimenti estesi su benchmark di ragionamento multimodale, tra cui MathVista e MathVerse, dimostrano che DRIFT migliora costantemente le prestazioni di ragionamento rispetto alla fusione ingenua e all'affinamento supervisionato, eguagliando o superando metodi ad alto costo di addestramento a una frazione del costo.
English
Multimodal large language models (MLLMs) are rapidly advancing, yet their
reasoning ability often lags behind that of strong text-only counterparts.
Existing methods to bridge this gap rely on supervised fine-tuning over
large-scale multimodal reasoning data or reinforcement learning, both of which
are resource-intensive. A promising alternative is model merging, which
interpolates parameters between reasoning-enhanced LLMs and multimodal
variants. However, our analysis shows that naive merging is not always a "free
lunch": its effectiveness varies drastically across model families, with some
(e.g., LLaVA, Idefics) benefiting while others (e.g., Qwen) suffer performance
degradation. To address this, we propose Directional Reasoning Injection for
Fine-Tuning (DRIFT) MLLMs, a lightweight method that transfers reasoning
knowledge in the gradient space, without destabilizing multimodal alignment.
DRIFT precomputes a reasoning prior as the parameter-space difference between
reasoning and multimodal variants, then uses it to bias gradients during
multimodal fine-tuning. This approach preserves the simplicity of standard
supervised fine-tuning pipelines while enabling efficient reasoning transfer.
Extensive experiments on multimodal reasoning benchmarks, including MathVista
and MathVerse, demonstrate that DRIFT consistently improves reasoning
performance over naive merging and supervised fine-tuning, while matching or
surpassing training-heavy methods at a fraction of the cost.