(Quasi) Gratuita Connessione Modale dei Modelli di Base
(Almost) Free Modality Stitching of Foundation Models
July 14, 2025
Autori: Jaisidh Singh, Diganta Misra, Boris Knyazev, Antonio Orvieto
cs.AI
Abstract
I modelli multi-modali di base sono spesso progettati combinando più modelli pre-addestrati uni-modali esistenti: ad esempio, un classificatore di immagini con un modello di testo. Questo processo di combinazione viene eseguito addestrando un modulo connettore che mira ad allineare gli spazi di rappresentazione di questi modelli uni-modali verso un obiettivo multi-modale. Tuttavia, data la complessità dell'addestramento di tali connettori su dataset su larga scala basati sul web, unita al numero sempre crescente di modelli pre-addestrati uni-modali disponibili, il compito di selezione dei modelli uni-modali e il successivo addestramento del modulo connettore diventa computazionalmente impegnativo. Per affrontare questo problema critico e poco studiato, proponiamo Hypernetwork Model Alignment (Hyma), una soluzione innovativa tutto-in-uno per la selezione ottimale dei modelli uni-modali e l'addestramento del connettore sfruttando le iper-reti. Nello specifico, il nostro framework utilizza la capacità di previsione dei parametri di un'iper-rete per ottenere moduli connettori addestrati congiuntamente per N volte M combinazioni di modelli uni-modali. Nei nostri esperimenti, Hyma riduce il costo della ricerca della coppia di modelli uni-modali con le migliori prestazioni di 10 volte, eguagliando il ranking e le prestazioni del connettore addestrato ottenuti tramite la ricerca a griglia su una serie di benchmark multi-modali diversificati.
English
Foundation multi-modal models are often designed by stitching of multiple
existing pretrained uni-modal models: for example, an image classifier with an
text model. This stitching process is performed by training a connector module
that aims to align the representation spaces of these uni-modal models towards
a multi-modal objective. However, given the complexity of training such
connectors on large scale web-based datasets coupled with the ever-increasing
number of available pretrained uni-modal models, the task of uni-modal models
selection and subsequent connector module training becomes computationally
demanding. To address this under-studied critical problem, we propose
Hypernetwork Model Alignment (Hyma), a novel all-in-one solution for optimal
uni-modal model selection and connector training by leveraging hypernetworks.
Specifically, our framework utilizes the parameter prediction capability of a
hypernetwork to obtain jointly trained connector modules for N times M
combinations of uni-modal models. In our experiments, Hyma reduces the cost of
searching for the best performing uni-modal model pair by 10times, while
matching the ranking and trained connector performance obtained via grid search
across a suite of diverse multi-modal benchmarks.