ChatPaper.aiChatPaper

(Quasi) Gratuita Connessione Modale dei Modelli di Base

(Almost) Free Modality Stitching of Foundation Models

July 14, 2025
Autori: Jaisidh Singh, Diganta Misra, Boris Knyazev, Antonio Orvieto
cs.AI

Abstract

I modelli multi-modali di base sono spesso progettati combinando più modelli pre-addestrati uni-modali esistenti: ad esempio, un classificatore di immagini con un modello di testo. Questo processo di combinazione viene eseguito addestrando un modulo connettore che mira ad allineare gli spazi di rappresentazione di questi modelli uni-modali verso un obiettivo multi-modale. Tuttavia, data la complessità dell'addestramento di tali connettori su dataset su larga scala basati sul web, unita al numero sempre crescente di modelli pre-addestrati uni-modali disponibili, il compito di selezione dei modelli uni-modali e il successivo addestramento del modulo connettore diventa computazionalmente impegnativo. Per affrontare questo problema critico e poco studiato, proponiamo Hypernetwork Model Alignment (Hyma), una soluzione innovativa tutto-in-uno per la selezione ottimale dei modelli uni-modali e l'addestramento del connettore sfruttando le iper-reti. Nello specifico, il nostro framework utilizza la capacità di previsione dei parametri di un'iper-rete per ottenere moduli connettori addestrati congiuntamente per N volte M combinazioni di modelli uni-modali. Nei nostri esperimenti, Hyma riduce il costo della ricerca della coppia di modelli uni-modali con le migliori prestazioni di 10 volte, eguagliando il ranking e le prestazioni del connettore addestrato ottenuti tramite la ricerca a griglia su una serie di benchmark multi-modali diversificati.
English
Foundation multi-modal models are often designed by stitching of multiple existing pretrained uni-modal models: for example, an image classifier with an text model. This stitching process is performed by training a connector module that aims to align the representation spaces of these uni-modal models towards a multi-modal objective. However, given the complexity of training such connectors on large scale web-based datasets coupled with the ever-increasing number of available pretrained uni-modal models, the task of uni-modal models selection and subsequent connector module training becomes computationally demanding. To address this under-studied critical problem, we propose Hypernetwork Model Alignment (Hyma), a novel all-in-one solution for optimal uni-modal model selection and connector training by leveraging hypernetworks. Specifically, our framework utilizes the parameter prediction capability of a hypernetwork to obtain jointly trained connector modules for N times M combinations of uni-modal models. In our experiments, Hyma reduces the cost of searching for the best performing uni-modal model pair by 10times, while matching the ranking and trained connector performance obtained via grid search across a suite of diverse multi-modal benchmarks.
PDF11July 18, 2025