ChatPaper.aiChatPaper

(Bijna) Gratis Modaal Stikwerk van Fundamentmodellen

(Almost) Free Modality Stitching of Foundation Models

July 14, 2025
Auteurs: Jaisidh Singh, Diganta Misra, Boris Knyazev, Antonio Orvieto
cs.AI

Samenvatting

Foundation multi-modale modellen worden vaak ontworpen door het samenvoegen van meerdere bestaande vooraf getrainde uni-modale modellen: bijvoorbeeld een beeldclassificatiemodel met een tekstmodel. Dit samenvoegingsproces wordt uitgevoerd door een verbindingsmodule te trainen die gericht is op het uitlijnen van de representatieruimtes van deze uni-modale modellen naar een multi-modale doelstelling. Gezien de complexiteit van het trainen van dergelijke verbindingsmodules op grootschalige webgebaseerde datasets, in combinatie met het steeds toenemende aantal beschikbare vooraf getrainde uni-modale modellen, wordt de taak van het selecteren van uni-modale modellen en het daaropvolgende trainen van de verbindingsmodule rekenkundig veeleisend. Om dit onderbelichte kritieke probleem aan te pakken, stellen we Hypernetwork Model Alignment (Hyma) voor, een innovatieve alles-in-één oplossing voor optimale selectie van uni-modale modellen en het trainen van verbindingsmodules door gebruik te maken van hypernetwerken. Specifiek maakt ons framework gebruik van de parameter-voorspellingscapaciteit van een hypernetwork om gezamenlijk getrainde verbindingsmodules te verkrijgen voor N keer M combinaties van uni-modale modellen. In onze experimenten reduceert Hyma de kosten van het zoeken naar het best presterende uni-modale modelpaar met een factor 10, terwijl het de rangschikking en de prestaties van de getrainde verbindingsmodule evenaart die verkregen zijn via een grid search over een reeks diverse multi-modale benchmarks.
English
Foundation multi-modal models are often designed by stitching of multiple existing pretrained uni-modal models: for example, an image classifier with an text model. This stitching process is performed by training a connector module that aims to align the representation spaces of these uni-modal models towards a multi-modal objective. However, given the complexity of training such connectors on large scale web-based datasets coupled with the ever-increasing number of available pretrained uni-modal models, the task of uni-modal models selection and subsequent connector module training becomes computationally demanding. To address this under-studied critical problem, we propose Hypernetwork Model Alignment (Hyma), a novel all-in-one solution for optimal uni-modal model selection and connector training by leveraging hypernetworks. Specifically, our framework utilizes the parameter prediction capability of a hypernetwork to obtain jointly trained connector modules for N times M combinations of uni-modal models. In our experiments, Hyma reduces the cost of searching for the best performing uni-modal model pair by 10times, while matching the ranking and trained connector performance obtained via grid search across a suite of diverse multi-modal benchmarks.
PDF11December 22, 2025