ChatPaper.aiChatPaper

MLLM 미세 조정을 위한 방향성 추론 주입

Directional Reasoning Injection for Fine-Tuning MLLMs

October 16, 2025
저자: Chao Huang, Zeliang Zhang, Jiang Liu, Ximeng Sun, Jialian Wu, Xiaodong Yu, Ze Wang, Chenliang Xu, Emad Barsoum, Zicheng Liu
cs.AI

초록

멀티모달 대형 언어 모델(MLLMs)은 빠르게 발전하고 있지만, 그들의 추론 능력은 종종 강력한 텍스트 전용 모델에 비해 뒤처지는 경우가 많습니다. 이러한 격차를 해소하기 위한 기존 방법은 대규모 멀티모달 추론 데이터에 대한 지도 미세 조정이나 강화 학습에 의존하는데, 이 둘 모두 자원 집약적입니다. 이를 해결할 수 있는 유망한 대안은 모델 병합으로, 추론 능력이 강화된 LLM과 멀티모달 변형 모델 간의 매개변수를 보간하는 방식입니다. 그러나 우리의 분석에 따르면, 단순한 병합이 항상 "공짜 점심"은 아닙니다: 그 효과는 모델 계열에 따라 크게 달라지며, 일부(예: LLaVA, Idefics)는 이점을 얻는 반면 다른 모델(예: Qwen)은 성능 저하를 겪습니다. 이를 해결하기 위해, 우리는 경량화된 방법인 DRIFT(Directional Reasoning Injection for Fine-Tuning) MLLMs를 제안합니다. 이 방법은 멀티모달 정렬을 불안정하게 하지 않으면서 그래디언트 공간에서 추론 지식을 전달합니다. DRIFT는 추론 변형과 멀티모달 변형 간의 매개변수 공간 차이를 추론 사전으로 미리 계산한 후, 이를 멀티모달 미세 조정 중 그래디언트를 편향시키는 데 사용합니다. 이 접근법은 표준 지도 미세 조정 파이프라인의 단순성을 유지하면서도 효율적인 추론 전달을 가능하게 합니다. MathVista 및 MathVerse를 포함한 멀티모달 추론 벤치마크에서의 광범위한 실험을 통해 DRIFT가 단순 병합 및 지도 미세 조정보다 일관되게 추론 성능을 향상시키며, 비용의 일부로 훈련 집약적인 방법을 능가하거나 동등한 성능을 보임을 입증했습니다.
English
Multimodal large language models (MLLMs) are rapidly advancing, yet their reasoning ability often lags behind that of strong text-only counterparts. Existing methods to bridge this gap rely on supervised fine-tuning over large-scale multimodal reasoning data or reinforcement learning, both of which are resource-intensive. A promising alternative is model merging, which interpolates parameters between reasoning-enhanced LLMs and multimodal variants. However, our analysis shows that naive merging is not always a "free lunch": its effectiveness varies drastically across model families, with some (e.g., LLaVA, Idefics) benefiting while others (e.g., Qwen) suffer performance degradation. To address this, we propose Directional Reasoning Injection for Fine-Tuning (DRIFT) MLLMs, a lightweight method that transfers reasoning knowledge in the gradient space, without destabilizing multimodal alignment. DRIFT precomputes a reasoning prior as the parameter-space difference between reasoning and multimodal variants, then uses it to bias gradients during multimodal fine-tuning. This approach preserves the simplicity of standard supervised fine-tuning pipelines while enabling efficient reasoning transfer. Extensive experiments on multimodal reasoning benchmarks, including MathVista and MathVerse, demonstrate that DRIFT consistently improves reasoning performance over naive merging and supervised fine-tuning, while matching or surpassing training-heavy methods at a fraction of the cost.
PDF31October 23, 2025