Инъекция направленного рассуждения для тонкой настройки MLLM

Аннотация

Мультимодальные крупные языковые модели (MLLMs) быстро развиваются, однако их способность к рассуждению часто отстаёт от сильных текстовых аналогов. Существующие методы для преодоления этого разрыва основываются на контролируемом тонком обучении на больших объёмах мультимодальных данных для рассуждений или на обучении с подкреплением, что требует значительных ресурсов. Перспективной альтернативой является слияние моделей, при котором параметры интерполируются между языковыми моделями с улучшенными способностями к рассуждениям и их мультимодальными вариантами. Однако наш анализ показывает, что простое слияние не всегда является "бесплатным обедом": его эффективность сильно варьируется в зависимости от семейств моделей, причём некоторые (например, LLaVA, Idefics) выигрывают, а другие (например, Qwen) теряют в производительности. Чтобы решить эту проблему, мы предлагаем метод Directional Reasoning Injection for Fine-Tuning (DRIFT) MLLMs — лёгкий подход, который переносит знания о рассуждениях в пространстве градиентов, не нарушая мультимодального выравнивания. DRIFT предварительно вычисляет приоритет рассуждений как разницу в пространстве параметров между моделями с улучшенными рассуждениями и их мультимодальными вариантами, а затем использует его для смещения градиентов во время тонкого мультимодального обучения. Этот подход сохраняет простоту стандартных конвейеров контролируемого тонкого обучения, обеспечивая при этом эффективный перенос способностей к рассуждениям. Экстенсивные эксперименты на мультимодальных бенчмарках для рассуждений, включая MathVista и MathVerse, демонстрируют, что DRIFT стабильно улучшает производительность в рассуждениях по сравнению с простым слиянием и контролируемым тонким обучением, при этом сопоставляя или превосходя ресурсоёмкие методы при значительно меньших затратах.

English

Multimodal large language models (MLLMs) are rapidly advancing, yet their reasoning ability often lags behind that of strong text-only counterparts. Existing methods to bridge this gap rely on supervised fine-tuning over large-scale multimodal reasoning data or reinforcement learning, both of which are resource-intensive. A promising alternative is model merging, which interpolates parameters between reasoning-enhanced LLMs and multimodal variants. However, our analysis shows that naive merging is not always a "free lunch": its effectiveness varies drastically across model families, with some (e.g., LLaVA, Idefics) benefiting while others (e.g., Qwen) suffer performance degradation. To address this, we propose Directional Reasoning Injection for Fine-Tuning (DRIFT) MLLMs, a lightweight method that transfers reasoning knowledge in the gradient space, without destabilizing multimodal alignment. DRIFT precomputes a reasoning prior as the parameter-space difference between reasoning and multimodal variants, then uses it to bias gradients during multimodal fine-tuning. This approach preserves the simplicity of standard supervised fine-tuning pipelines while enabling efficient reasoning transfer. Extensive experiments on multimodal reasoning benchmarks, including MathVista and MathVerse, demonstrate that DRIFT consistently improves reasoning performance over naive merging and supervised fine-tuning, while matching or surpassing training-heavy methods at a fraction of the cost.

Инъекция направленного рассуждения для тонкой настройки MLLM

Directional Reasoning Injection for Fine-Tuning MLLMs

Аннотация

Support