ChatPaper.aiChatPaper

Bring Reason to Vision: Wahrnehmung und logisches Denken durch Modellzusammenführung verstehen

Bring Reason to Vision: Understanding Perception and Reasoning through Model Merging

May 8, 2025
papers.authors: Shiqi Chen, Jinghan Zhang, Tongyao Zhu, Wei Liu, Siyang Gao, Miao Xiong, Manling Li, Junxian He
cs.AI

papers.abstract

Vision-Language-Modelle (VLMs) kombinieren visuelle Wahrnehmung mit den allgemeinen Fähigkeiten, wie z.B. dem logischen Denken, von Large Language Models (LLMs). Die Mechanismen, durch die diese beiden Fähigkeiten kombiniert und genutzt werden können, sind jedoch noch weitgehend unverstanden. In dieser Arbeit untersuchen wir, wie Wahrnehmung und logisches Denken durch das Zusammenführen von Modellen, das Parameter verschiedener Modelle verbindet, kombiniert werden können. Im Gegensatz zu früheren Arbeiten, die sich oft auf das Zusammenführen von Modellen desselben Typs konzentrieren, schlagen wir das Zusammenführen von Modellen über verschiedene Modalitäten hinweg vor, wodurch die logischen Fähigkeiten von LLMs in VLMs integriert werden können. Durch umfangreiche Experimente zeigen wir, dass das Zusammenführen von Modellen einen erfolgreichen Weg bietet, um logische Fähigkeiten von LLMs auf VLMs in einer trainingsfreien Weise zu übertragen. Darüber hinaus nutzen wir die zusammengeführten Modelle, um den internen Mechanismus von Wahrnehmung und logischem Denken sowie die Auswirkungen des Zusammenführens darauf zu verstehen. Wir stellen fest, dass Wahrnehmungsfähigkeiten hauptsächlich in den frühen Schichten des Modells kodiert sind, während logisches Denken weitgehend durch die mittleren bis späten Schichten ermöglicht wird. Nach dem Zusammenführen beobachten wir, dass alle Schichten beginnen, zum logischen Denken beizutragen, während die Verteilung der Wahrnehmungsfähigkeiten über die Schichten weitgehend unverändert bleibt. Diese Beobachtungen beleuchten das Potenzial des Zusammenführens von Modellen als Werkzeug für multimodale Integration und Interpretation.
English
Vision-Language Models (VLMs) combine visual perception with the general capabilities, such as reasoning, of Large Language Models (LLMs). However, the mechanisms by which these two abilities can be combined and contribute remain poorly understood. In this work, we explore to compose perception and reasoning through model merging that connects parameters of different models. Unlike previous works that often focus on merging models of the same kind, we propose merging models across modalities, enabling the incorporation of the reasoning capabilities of LLMs into VLMs. Through extensive experiments, we demonstrate that model merging offers a successful pathway to transfer reasoning abilities from LLMs to VLMs in a training-free manner. Moreover, we utilize the merged models to understand the internal mechanism of perception and reasoning and how merging affects it. We find that perception capabilities are predominantly encoded in the early layers of the model, whereas reasoning is largely facilitated by the middle-to-late layers. After merging, we observe that all layers begin to contribute to reasoning, whereas the distribution of perception abilities across layers remains largely unchanged. These observations shed light on the potential of model merging as a tool for multimodal integration and interpretation.
PDF112May 14, 2025