Breng Redenering naar Visie: Inzicht in Waarneming en Redeneren door Modelintegratie
Bring Reason to Vision: Understanding Perception and Reasoning through Model Merging
May 8, 2025
Auteurs: Shiqi Chen, Jinghan Zhang, Tongyao Zhu, Wei Liu, Siyang Gao, Miao Xiong, Manling Li, Junxian He
cs.AI
Samenvatting
Vision-Language Models (VLMs) combineren visuele waarneming met de algemene
capaciteiten, zoals redeneren, van Large Language Models (LLMs). De mechanismen
waarbij deze twee vaardigheden gecombineerd kunnen worden en bijdragen, blijven
echter slecht begrepen. In dit werk onderzoeken we hoe waarneming en redeneren
samengesteld kunnen worden door modelmerging, waarbij parameters van verschillende
modellen worden verbonden. In tegenstelling tot eerdere werken die zich vaak
richten op het samenvoegen van modellen van hetzelfde type, stellen we voor om
modellen over verschillende modaliteiten heen te mergen, waardoor de redeneercapaciteiten
van LLMs in VLMs kunnen worden geïntegreerd. Door uitgebreide experimenten tonen
we aan dat modelmerging een succesvolle weg biedt om redeneervaardigheden van
LLMs naar VLMs over te dragen op een trainingsvrije manier. Bovendien gebruiken
we de samengevoegde modellen om het interne mechanisme van waarneming en redeneren
te begrijpen en hoe merging dit beïnvloedt. We ontdekken dat waarnemingscapaciteiten
voornamelijk gecodeerd zijn in de vroege lagen van het model, terwijl redeneren
vooral wordt gefaciliteerd door de middelste tot late lagen. Na het samenvoegen
observeren we dat alle lagen beginnen bij te dragen aan redeneren, terwijl de
verdeling van waarnemingsvaardigheden over de lagen grotendeels onveranderd blijft.
Deze observaties werpen licht op het potentieel van modelmerging als een tool
voor multimodale integratie en interpretatie.
English
Vision-Language Models (VLMs) combine visual perception with the general
capabilities, such as reasoning, of Large Language Models (LLMs). However, the
mechanisms by which these two abilities can be combined and contribute remain
poorly understood. In this work, we explore to compose perception and reasoning
through model merging that connects parameters of different models. Unlike
previous works that often focus on merging models of the same kind, we propose
merging models across modalities, enabling the incorporation of the reasoning
capabilities of LLMs into VLMs. Through extensive experiments, we demonstrate
that model merging offers a successful pathway to transfer reasoning abilities
from LLMs to VLMs in a training-free manner. Moreover, we utilize the merged
models to understand the internal mechanism of perception and reasoning and how
merging affects it. We find that perception capabilities are predominantly
encoded in the early layers of the model, whereas reasoning is largely
facilitated by the middle-to-late layers. After merging, we observe that all
layers begin to contribute to reasoning, whereas the distribution of perception
abilities across layers remains largely unchanged. These observations shed
light on the potential of model merging as a tool for multimodal integration
and interpretation.Summary
AI-Generated Summary