Llevar la Razón a la Visión: Comprendiendo la Percepción y el Razonamiento a través de la Fusión de Modelos
Bring Reason to Vision: Understanding Perception and Reasoning through Model Merging
May 8, 2025
Autores: Shiqi Chen, Jinghan Zhang, Tongyao Zhu, Wei Liu, Siyang Gao, Miao Xiong, Manling Li, Junxian He
cs.AI
Resumen
Los Modelos de Visión-Lenguaje (VLMs, por sus siglas en inglés) combinan la percepción visual con las capacidades generales, como el razonamiento, de los Modelos de Lenguaje a Gran Escala (LLMs). Sin embargo, los mecanismos mediante los cuales estas dos habilidades pueden combinarse y contribuir siguen siendo poco comprendidos. En este trabajo, exploramos la composición de la percepción y el razonamiento a través de la fusión de modelos que conecta los parámetros de diferentes modelos. A diferencia de trabajos anteriores que suelen centrarse en fusionar modelos del mismo tipo, proponemos fusionar modelos a través de modalidades, permitiendo la incorporación de las capacidades de razonamiento de los LLMs en los VLMs. A través de extensos experimentos, demostramos que la fusión de modelos ofrece una vía exitosa para transferir habilidades de razonamiento de los LLMs a los VLMs de manera libre de entrenamiento. Además, utilizamos los modelos fusionados para comprender el mecanismo interno de la percepción y el razonamiento, y cómo la fusión lo afecta. Descubrimos que las capacidades de percepción están predominantemente codificadas en las capas iniciales del modelo, mientras que el razonamiento se facilita en gran medida por las capas intermedias y finales. Después de la fusión, observamos que todas las capas comienzan a contribuir al razonamiento, mientras que la distribución de las habilidades de percepción en las capas permanece en gran medida sin cambios. Estas observaciones arrojan luz sobre el potencial de la fusión de modelos como una herramienta para la integración e interpretación multimodal.
English
Vision-Language Models (VLMs) combine visual perception with the general
capabilities, such as reasoning, of Large Language Models (LLMs). However, the
mechanisms by which these two abilities can be combined and contribute remain
poorly understood. In this work, we explore to compose perception and reasoning
through model merging that connects parameters of different models. Unlike
previous works that often focus on merging models of the same kind, we propose
merging models across modalities, enabling the incorporation of the reasoning
capabilities of LLMs into VLMs. Through extensive experiments, we demonstrate
that model merging offers a successful pathway to transfer reasoning abilities
from LLMs to VLMs in a training-free manner. Moreover, we utilize the merged
models to understand the internal mechanism of perception and reasoning and how
merging affects it. We find that perception capabilities are predominantly
encoded in the early layers of the model, whereas reasoning is largely
facilitated by the middle-to-late layers. After merging, we observe that all
layers begin to contribute to reasoning, whereas the distribution of perception
abilities across layers remains largely unchanged. These observations shed
light on the potential of model merging as a tool for multimodal integration
and interpretation.