ChatPaper.aiChatPaper

Trazer Razão à Visão: Compreendendo Percepção e Raciocínio através da Fusão de Modelos

Bring Reason to Vision: Understanding Perception and Reasoning through Model Merging

May 8, 2025
Autores: Shiqi Chen, Jinghan Zhang, Tongyao Zhu, Wei Liu, Siyang Gao, Miao Xiong, Manling Li, Junxian He
cs.AI

Resumo

Modelos Visão-Linguagem (VLMs) combinam percepção visual com as capacidades gerais, como raciocínio, dos Modelos de Linguagem de Grande Escala (LLMs). No entanto, os mecanismos pelos quais essas duas habilidades podem ser combinadas e contribuir permanecem pouco compreendidos. Neste trabalho, exploramos a composição de percepção e raciocínio por meio da fusão de modelos que conecta parâmetros de diferentes modelos. Diferentemente de trabalhos anteriores que frequentemente se concentram na fusão de modelos do mesmo tipo, propomos a fusão de modelos entre modalidades, permitindo a incorporação das capacidades de raciocínio dos LLMs nos VLMs. Através de extensos experimentos, demonstramos que a fusão de modelos oferece um caminho bem-sucedido para transferir habilidades de raciocínio dos LLMs para os VLMs de maneira livre de treinamento. Além disso, utilizamos os modelos fundidos para entender o mecanismo interno de percepção e raciocínio e como a fusão o afeta. Descobrimos que as capacidades de percepção estão predominantemente codificadas nas camadas iniciais do modelo, enquanto o raciocínio é amplamente facilitado pelas camadas intermediárias e finais. Após a fusão, observamos que todas as camadas começam a contribuir para o raciocínio, enquanto a distribuição das habilidades de percepção entre as camadas permanece praticamente inalterada. Essas observações lançam luz sobre o potencial da fusão de modelos como uma ferramenta para integração e interpretação multimodal.
English
Vision-Language Models (VLMs) combine visual perception with the general capabilities, such as reasoning, of Large Language Models (LLMs). However, the mechanisms by which these two abilities can be combined and contribute remain poorly understood. In this work, we explore to compose perception and reasoning through model merging that connects parameters of different models. Unlike previous works that often focus on merging models of the same kind, we propose merging models across modalities, enabling the incorporation of the reasoning capabilities of LLMs into VLMs. Through extensive experiments, we demonstrate that model merging offers a successful pathway to transfer reasoning abilities from LLMs to VLMs in a training-free manner. Moreover, we utilize the merged models to understand the internal mechanism of perception and reasoning and how merging affects it. We find that perception capabilities are predominantly encoded in the early layers of the model, whereas reasoning is largely facilitated by the middle-to-late layers. After merging, we observe that all layers begin to contribute to reasoning, whereas the distribution of perception abilities across layers remains largely unchanged. These observations shed light on the potential of model merging as a tool for multimodal integration and interpretation.
PDF112February 8, 2026