Apporter la raison à la vision : Comprendre la perception et le raisonnement par la fusion de modèles
Bring Reason to Vision: Understanding Perception and Reasoning through Model Merging
May 8, 2025
papers.authors: Shiqi Chen, Jinghan Zhang, Tongyao Zhu, Wei Liu, Siyang Gao, Miao Xiong, Manling Li, Junxian He
cs.AI
papers.abstract
Les modèles vision-langage (VLMs) combinent la perception visuelle avec les capacités générales, telles que le raisonnement, des grands modèles de langage (LLMs). Cependant, les mécanismes par lesquels ces deux aptitudes peuvent être combinées et contribuer restent mal compris. Dans ce travail, nous explorons la composition de la perception et du raisonnement par le biais de la fusion de modèles qui connecte les paramètres de différents modèles. Contrairement aux travaux précédents qui se concentrent souvent sur la fusion de modèles de même nature, nous proposons de fusionner des modèles à travers les modalités, permettant ainsi l'intégration des capacités de raisonnement des LLMs dans les VLMs. À travers des expériences approfondies, nous démontrons que la fusion de modèles offre une voie prometteuse pour transférer les capacités de raisonnement des LLMs aux VLMs sans nécessiter d'entraînement supplémentaire. De plus, nous utilisons les modèles fusionnés pour comprendre le mécanisme interne de la perception et du raisonnement, ainsi que l'impact de la fusion sur celui-ci. Nous constatons que les capacités de perception sont principalement encodées dans les premières couches du modèle, tandis que le raisonnement est largement facilité par les couches intermédiaires à tardives. Après la fusion, nous observons que toutes les couches commencent à contribuer au raisonnement, tandis que la répartition des capacités de perception à travers les couches reste largement inchangée. Ces observations mettent en lumière le potentiel de la fusion de modèles comme outil d'intégration et d'interprétation multimodale.
English
Vision-Language Models (VLMs) combine visual perception with the general
capabilities, such as reasoning, of Large Language Models (LLMs). However, the
mechanisms by which these two abilities can be combined and contribute remain
poorly understood. In this work, we explore to compose perception and reasoning
through model merging that connects parameters of different models. Unlike
previous works that often focus on merging models of the same kind, we propose
merging models across modalities, enabling the incorporation of the reasoning
capabilities of LLMs into VLMs. Through extensive experiments, we demonstrate
that model merging offers a successful pathway to transfer reasoning abilities
from LLMs to VLMs in a training-free manner. Moreover, we utilize the merged
models to understand the internal mechanism of perception and reasoning and how
merging affects it. We find that perception capabilities are predominantly
encoded in the early layers of the model, whereas reasoning is largely
facilitated by the middle-to-late layers. After merging, we observe that all
layers begin to contribute to reasoning, whereas the distribution of perception
abilities across layers remains largely unchanged. These observations shed
light on the potential of model merging as a tool for multimodal integration
and interpretation.