(Quasi) Gratuit Assemblage de Modalités pour les Modèles Fondamentaux
(Almost) Free Modality Stitching of Foundation Models
July 14, 2025
papers.authors: Jaisidh Singh, Diganta Misra, Boris Knyazev, Antonio Orvieto
cs.AI
papers.abstract
Les modèles multi-modaux de base sont souvent conçus en assemblant plusieurs modèles uni-modaux pré-entraînés existants : par exemple, un classifieur d'images avec un modèle de texte. Ce processus d'assemblage est réalisé en entraînant un module de connexion visant à aligner les espaces de représentation de ces modèles uni-modaux vers un objectif multi-modal. Cependant, compte tenu de la complexité de l'entraînement de tels connecteurs sur des ensembles de données web à grande échelle, ainsi que du nombre toujours croissant de modèles uni-modaux pré-entraînés disponibles, la sélection des modèles uni-modaux et l'entraînement ultérieur du module de connexion deviennent exigeants en termes de calcul. Pour résoudre ce problème critique sous-étudié, nous proposons Hypernetwork Model Alignment (Hyma), une solution tout-en-un novatrice pour la sélection optimale de modèles uni-modaux et l'entraînement des connecteurs en exploitant les hyper-réseaux. Plus précisément, notre framework utilise la capacité de prédiction de paramètres d'un hyper-réseau pour obtenir des modules de connexion entraînés conjointement pour N fois M combinaisons de modèles uni-modaux. Dans nos expériences, Hyma réduit le coût de la recherche de la paire de modèles uni-modaux la plus performante par un facteur de 10, tout en correspondant au classement et à la performance des connecteurs entraînés obtenus via une recherche exhaustive sur une série de benchmarks multi-modaux diversifiés.
English
Foundation multi-modal models are often designed by stitching of multiple
existing pretrained uni-modal models: for example, an image classifier with an
text model. This stitching process is performed by training a connector module
that aims to align the representation spaces of these uni-modal models towards
a multi-modal objective. However, given the complexity of training such
connectors on large scale web-based datasets coupled with the ever-increasing
number of available pretrained uni-modal models, the task of uni-modal models
selection and subsequent connector module training becomes computationally
demanding. To address this under-studied critical problem, we propose
Hypernetwork Model Alignment (Hyma), a novel all-in-one solution for optimal
uni-modal model selection and connector training by leveraging hypernetworks.
Specifically, our framework utilizes the parameter prediction capability of a
hypernetwork to obtain jointly trained connector modules for N times M
combinations of uni-modal models. In our experiments, Hyma reduces the cost of
searching for the best performing uni-modal model pair by 10times, while
matching the ranking and trained connector performance obtained via grid search
across a suite of diverse multi-modal benchmarks.