(Quase) Livre Costura de Modalidades em Modelos de Base
(Almost) Free Modality Stitching of Foundation Models
July 14, 2025
Autores: Jaisidh Singh, Diganta Misra, Boris Knyazev, Antonio Orvieto
cs.AI
Resumo
Modelos multi-modais de base são frequentemente projetados através da combinação de múltiplos modelos uni-modais pré-treinados existentes: por exemplo, um classificador de imagens com um modelo de texto. Esse processo de combinação é realizado treinando um módulo conector que visa alinhar os espaços de representação desses modelos uni-modais em direção a um objetivo multi-modal. No entanto, dada a complexidade de treinar tais conectores em grandes conjuntos de dados baseados na web, juntamente com o número cada vez maior de modelos uni-modais pré-treinados disponíveis, a tarefa de seleção de modelos uni-modais e o subsequente treinamento do módulo conector tornam-se computacionalmente exigentes. Para abordar esse problema crítico e pouco estudado, propomos o Alinhamento de Modelos por Hiper-rede (Hyma), uma solução abrangente e inovadora para a seleção ideal de modelos uni-modais e o treinamento de conectores, aproveitando hiper-redes. Especificamente, nosso framework utiliza a capacidade de previsão de parâmetros de uma hiper-rede para obter módulos conectores treinados conjuntamente para N vezes M combinações de modelos uni-modais. Em nossos experimentos, o Hyma reduz o custo da busca pelo par de modelos uni-modais de melhor desempenho em 10 vezes, enquanto iguala a classificação e o desempenho do conector treinado obtido por meio de busca exaustiva em uma série de benchmarks multi-modais diversos.
English
Foundation multi-modal models are often designed by stitching of multiple
existing pretrained uni-modal models: for example, an image classifier with an
text model. This stitching process is performed by training a connector module
that aims to align the representation spaces of these uni-modal models towards
a multi-modal objective. However, given the complexity of training such
connectors on large scale web-based datasets coupled with the ever-increasing
number of available pretrained uni-modal models, the task of uni-modal models
selection and subsequent connector module training becomes computationally
demanding. To address this under-studied critical problem, we propose
Hypernetwork Model Alignment (Hyma), a novel all-in-one solution for optimal
uni-modal model selection and connector training by leveraging hypernetworks.
Specifically, our framework utilizes the parameter prediction capability of a
hypernetwork to obtain jointly trained connector modules for N times M
combinations of uni-modal models. In our experiments, Hyma reduces the cost of
searching for the best performing uni-modal model pair by 10times, while
matching the ranking and trained connector performance obtained via grid search
across a suite of diverse multi-modal benchmarks.