ChatPaper.aiChatPaper

(Почти) Бесплатное Соединение Модальностей Базовых Моделей

(Almost) Free Modality Stitching of Foundation Models

July 14, 2025
Авторы: Jaisidh Singh, Diganta Misra, Boris Knyazev, Antonio Orvieto
cs.AI

Аннотация

Мультимодальные модели базового уровня часто создаются путем объединения нескольких существующих предобученных унимодальных моделей: например, классификатора изображений с текстовой моделью. Этот процесс объединения осуществляется путем обучения соединительного модуля, который стремится согласовать пространства представлений этих унимодальных моделей для достижения мультимодальной цели. Однако, учитывая сложность обучения таких соединительных модулей на крупномасштабных веб-данных, а также постоянно растущее количество доступных предобученных унимодальных моделей, задача выбора унимодальных моделей и последующего обучения соединительного модуля становится вычислительно затратной. Для решения этой недостаточно изученной критической проблемы мы предлагаем **Hypernetwork Model Alignment (Hyma)** — новое универсальное решение для оптимального выбора унимодальных моделей и обучения соединительных модулей с использованием гиперсетей. В частности, наша структура использует способность гиперсети предсказывать параметры для получения совместно обученных соединительных модулей для N на M комбинаций унимодальных моделей. В наших экспериментах Hyma сокращает затраты на поиск наилучшей пары унимодальных моделей в 10 раз, при этом сохраняя ранжирование и производительность обученных соединительных модулей, полученных с помощью полного перебора на наборе разнообразных мультимодальных тестов.
English
Foundation multi-modal models are often designed by stitching of multiple existing pretrained uni-modal models: for example, an image classifier with an text model. This stitching process is performed by training a connector module that aims to align the representation spaces of these uni-modal models towards a multi-modal objective. However, given the complexity of training such connectors on large scale web-based datasets coupled with the ever-increasing number of available pretrained uni-modal models, the task of uni-modal models selection and subsequent connector module training becomes computationally demanding. To address this under-studied critical problem, we propose Hypernetwork Model Alignment (Hyma), a novel all-in-one solution for optimal uni-modal model selection and connector training by leveraging hypernetworks. Specifically, our framework utilizes the parameter prediction capability of a hypernetwork to obtain jointly trained connector modules for N times M combinations of uni-modal models. In our experiments, Hyma reduces the cost of searching for the best performing uni-modal model pair by 10times, while matching the ranking and trained connector performance obtained via grid search across a suite of diverse multi-modal benchmarks.
PDF01July 18, 2025