ChatPaper.aiChatPaper

Привнесите разум в зрение: понимание восприятия и мышления через слияние моделей

Bring Reason to Vision: Understanding Perception and Reasoning through Model Merging

May 8, 2025
Авторы: Shiqi Chen, Jinghan Zhang, Tongyao Zhu, Wei Liu, Siyang Gao, Miao Xiong, Manling Li, Junxian He
cs.AI

Аннотация

Модели, объединяющие зрительное восприятие и язык (Vision-Language Models, VLMs), сочетают визуальное восприятие с общими возможностями, такими как рассуждение, характерными для крупных языковых моделей (Large Language Models, LLMs). Однако механизмы, с помощью которых эти две способности могут быть объединены и взаимодействовать, остаются малоизученными. В данной работе мы исследуем возможность композиции восприятия и рассуждения через слияние моделей, которое связывает параметры различных моделей. В отличие от предыдущих работ, которые часто сосредоточены на слиянии моделей одного типа, мы предлагаем объединять модели различных модальностей, что позволяет интегрировать способности к рассуждению LLMs в VLMs. В ходе обширных экспериментов мы демонстрируем, что слияние моделей представляет собой успешный путь для передачи способностей к рассуждению от LLMs к VLMs без необходимости дополнительного обучения. Кроме того, мы используем объединенные модели для изучения внутренних механизмов восприятия и рассуждения, а также того, как слияние влияет на них. Мы обнаруживаем, что способности к восприятию преимущественно закодированы в ранних слоях модели, тогда как рассуждение в значительной степени обеспечивается средними и поздними слоями. После слияния мы наблюдаем, что все слои начинают вносить вклад в рассуждение, тогда как распределение способностей к восприятию по слоям остается в основном неизменным. Эти наблюдения проливают свет на потенциал слияния моделей как инструмента для мультимодальной интеграции и интерпретации.
English
Vision-Language Models (VLMs) combine visual perception with the general capabilities, such as reasoning, of Large Language Models (LLMs). However, the mechanisms by which these two abilities can be combined and contribute remain poorly understood. In this work, we explore to compose perception and reasoning through model merging that connects parameters of different models. Unlike previous works that often focus on merging models of the same kind, we propose merging models across modalities, enabling the incorporation of the reasoning capabilities of LLMs into VLMs. Through extensive experiments, we demonstrate that model merging offers a successful pathway to transfer reasoning abilities from LLMs to VLMs in a training-free manner. Moreover, we utilize the merged models to understand the internal mechanism of perception and reasoning and how merging affects it. We find that perception capabilities are predominantly encoded in the early layers of the model, whereas reasoning is largely facilitated by the middle-to-late layers. After merging, we observe that all layers begin to contribute to reasoning, whereas the distribution of perception abilities across layers remains largely unchanged. These observations shed light on the potential of model merging as a tool for multimodal integration and interpretation.

Summary

AI-Generated Summary

PDF62May 14, 2025