ChatPaper.aiChatPaper

Inyección de Razonamiento Direccional para el Ajuste Fino de MLLMs

Directional Reasoning Injection for Fine-Tuning MLLMs

October 16, 2025
Autores: Chao Huang, Zeliang Zhang, Jiang Liu, Ximeng Sun, Jialian Wu, Xiaodong Yu, Ze Wang, Chenliang Xu, Emad Barsoum, Zicheng Liu
cs.AI

Resumen

Los modelos de lenguaje multimodal de gran escala (MLLMs, por sus siglas en inglés) están avanzando rápidamente, aunque su capacidad de razonamiento a menudo se queda rezagada en comparación con sus contrapartes basadas únicamente en texto. Los métodos existentes para cerrar esta brecha dependen del ajuste fino supervisado sobre datos de razonamiento multimodal a gran escala o del aprendizaje por refuerzo, ambos intensivos en recursos. Una alternativa prometedora es la fusión de modelos, que interpola parámetros entre LLMs mejorados en razonamiento y variantes multimodales. Sin embargo, nuestro análisis muestra que la fusión ingenua no siempre es una "solución gratuita": su efectividad varía drásticamente entre familias de modelos, con algunos (por ejemplo, LLaVA, Idefics) beneficiándose, mientras que otros (por ejemplo, Qwen) experimentan una degradación en el rendimiento. Para abordar esto, proponemos la Inyección Direccional de Razonamiento para el Ajuste Fino (DRIFT, por sus siglas en inglés) en MLLMs, un método ligero que transfiere conocimiento de razonamiento en el espacio de gradientes, sin desestabilizar la alineación multimodal. DRIFT precalcula un prior de razonamiento como la diferencia en el espacio de parámetros entre variantes de razonamiento y multimodales, y luego lo utiliza para sesgar los gradientes durante el ajuste fino multimodal. Este enfoque preserva la simplicidad de las pipelines estándar de ajuste fino supervisado, al mismo tiempo que permite una transferencia eficiente de razonamiento. Experimentos extensos en benchmarks de razonamiento multimodal, como MathVista y MathVerse, demuestran que DRIFT mejora consistentemente el rendimiento en razonamiento en comparación con la fusión ingenua y el ajuste fino supervisado, igualando o superando métodos que requieren un entrenamiento intensivo a una fracción del costo.
English
Multimodal large language models (MLLMs) are rapidly advancing, yet their reasoning ability often lags behind that of strong text-only counterparts. Existing methods to bridge this gap rely on supervised fine-tuning over large-scale multimodal reasoning data or reinforcement learning, both of which are resource-intensive. A promising alternative is model merging, which interpolates parameters between reasoning-enhanced LLMs and multimodal variants. However, our analysis shows that naive merging is not always a "free lunch": its effectiveness varies drastically across model families, with some (e.g., LLaVA, Idefics) benefiting while others (e.g., Qwen) suffer performance degradation. To address this, we propose Directional Reasoning Injection for Fine-Tuning (DRIFT) MLLMs, a lightweight method that transfers reasoning knowledge in the gradient space, without destabilizing multimodal alignment. DRIFT precomputes a reasoning prior as the parameter-space difference between reasoning and multimodal variants, then uses it to bias gradients during multimodal fine-tuning. This approach preserves the simplicity of standard supervised fine-tuning pipelines while enabling efficient reasoning transfer. Extensive experiments on multimodal reasoning benchmarks, including MathVista and MathVerse, demonstrate that DRIFT consistently improves reasoning performance over naive merging and supervised fine-tuning, while matching or surpassing training-heavy methods at a fraction of the cost.
PDF31October 23, 2025