Portare la Ragione alla Visione: Comprendere la Percezione e il Ragionamento attraverso la Fusione di Modelli
Bring Reason to Vision: Understanding Perception and Reasoning through Model Merging
May 8, 2025
Autori: Shiqi Chen, Jinghan Zhang, Tongyao Zhu, Wei Liu, Siyang Gao, Miao Xiong, Manling Li, Junxian He
cs.AI
Abstract
I modelli visione-linguaggio (VLMs) combinano la percezione visiva con le capacità generali, come il ragionamento, dei modelli linguistici di grandi dimensioni (LLMs). Tuttavia, i meccanismi attraverso i quali queste due abilità possono essere combinate e contribuire rimangono poco compresi. In questo lavoro, esploriamo la composizione di percezione e ragionamento attraverso la fusione di modelli che collega i parametri di modelli diversi. A differenza dei lavori precedenti che spesso si concentrano sulla fusione di modelli dello stesso tipo, proponiamo la fusione di modelli attraverso le modalità, consentendo l'incorporazione delle capacità di ragionamento degli LLMs nei VLMs. Attraverso esperimenti estesi, dimostriamo che la fusione di modelli offre una via di successo per trasferire le capacità di ragionamento dagli LLMs ai VLMs in modo privo di addestramento. Inoltre, utilizziamo i modelli fusi per comprendere il meccanismo interno di percezione e ragionamento e come la fusione lo influenzi. Scopriamo che le capacità di percezione sono prevalentemente codificate nei primi strati del modello, mentre il ragionamento è largamente facilitato dagli strati intermedi e finali. Dopo la fusione, osserviamo che tutti gli strati iniziano a contribuire al ragionamento, mentre la distribuzione delle abilità di percezione attraverso gli strati rimane sostanzialmente invariata. Queste osservazioni gettano luce sul potenziale della fusione di modelli come strumento per l'integrazione e l'interpretazione multimodale.
English
Vision-Language Models (VLMs) combine visual perception with the general
capabilities, such as reasoning, of Large Language Models (LLMs). However, the
mechanisms by which these two abilities can be combined and contribute remain
poorly understood. In this work, we explore to compose perception and reasoning
through model merging that connects parameters of different models. Unlike
previous works that often focus on merging models of the same kind, we propose
merging models across modalities, enabling the incorporation of the reasoning
capabilities of LLMs into VLMs. Through extensive experiments, we demonstrate
that model merging offers a successful pathway to transfer reasoning abilities
from LLMs to VLMs in a training-free manner. Moreover, we utilize the merged
models to understand the internal mechanism of perception and reasoning and how
merging affects it. We find that perception capabilities are predominantly
encoded in the early layers of the model, whereas reasoning is largely
facilitated by the middle-to-late layers. After merging, we observe that all
layers begin to contribute to reasoning, whereas the distribution of perception
abilities across layers remains largely unchanged. These observations shed
light on the potential of model merging as a tool for multimodal integration
and interpretation.