Инъекция направленного рассуждения для тонкой настройки MLLM
Directional Reasoning Injection for Fine-Tuning MLLMs
October 16, 2025
Авторы: Chao Huang, Zeliang Zhang, Jiang Liu, Ximeng Sun, Jialian Wu, Xiaodong Yu, Ze Wang, Chenliang Xu, Emad Barsoum, Zicheng Liu
cs.AI
Аннотация
Мультимодальные крупные языковые модели (MLLMs) быстро развиваются, однако их способность к рассуждению часто отстаёт от сильных текстовых аналогов. Существующие методы для преодоления этого разрыва основываются на контролируемом тонком обучении на больших объёмах мультимодальных данных для рассуждений или на обучении с подкреплением, что требует значительных ресурсов. Перспективной альтернативой является слияние моделей, при котором параметры интерполируются между языковыми моделями с улучшенными способностями к рассуждениям и их мультимодальными вариантами. Однако наш анализ показывает, что простое слияние не всегда является "бесплатным обедом": его эффективность сильно варьируется в зависимости от семейств моделей, причём некоторые (например, LLaVA, Idefics) выигрывают, а другие (например, Qwen) теряют в производительности. Чтобы решить эту проблему, мы предлагаем метод Directional Reasoning Injection for Fine-Tuning (DRIFT) MLLMs — лёгкий подход, который переносит знания о рассуждениях в пространстве градиентов, не нарушая мультимодального выравнивания. DRIFT предварительно вычисляет приоритет рассуждений как разницу в пространстве параметров между моделями с улучшенными рассуждениями и их мультимодальными вариантами, а затем использует его для смещения градиентов во время тонкого мультимодального обучения. Этот подход сохраняет простоту стандартных конвейеров контролируемого тонкого обучения, обеспечивая при этом эффективный перенос способностей к рассуждениям. Экстенсивные эксперименты на мультимодальных бенчмарках для рассуждений, включая MathVista и MathVerse, демонстрируют, что DRIFT стабильно улучшает производительность в рассуждениях по сравнению с простым слиянием и контролируемым тонким обучением, при этом сопоставляя или превосходя ресурсоёмкие методы при значительно меньших затратах.
English
Multimodal large language models (MLLMs) are rapidly advancing, yet their
reasoning ability often lags behind that of strong text-only counterparts.
Existing methods to bridge this gap rely on supervised fine-tuning over
large-scale multimodal reasoning data or reinforcement learning, both of which
are resource-intensive. A promising alternative is model merging, which
interpolates parameters between reasoning-enhanced LLMs and multimodal
variants. However, our analysis shows that naive merging is not always a "free
lunch": its effectiveness varies drastically across model families, with some
(e.g., LLaVA, Idefics) benefiting while others (e.g., Qwen) suffer performance
degradation. To address this, we propose Directional Reasoning Injection for
Fine-Tuning (DRIFT) MLLMs, a lightweight method that transfers reasoning
knowledge in the gradient space, without destabilizing multimodal alignment.
DRIFT precomputes a reasoning prior as the parameter-space difference between
reasoning and multimodal variants, then uses it to bias gradients during
multimodal fine-tuning. This approach preserves the simplicity of standard
supervised fine-tuning pipelines while enabling efficient reasoning transfer.
Extensive experiments on multimodal reasoning benchmarks, including MathVista
and MathVerse, demonstrate that DRIFT consistently improves reasoning
performance over naive merging and supervised fine-tuning, while matching or
surpassing training-heavy methods at a fraction of the cost.