ChatPaper.aiChatPaper

(Beinahe) kostenfreie Modalkombination von Foundation Models

(Almost) Free Modality Stitching of Foundation Models

July 14, 2025
papers.authors: Jaisidh Singh, Diganta Misra, Boris Knyazev, Antonio Orvieto
cs.AI

papers.abstract

Foundation-Multi-Modell-Modelle werden oft durch die Verknüpfung mehrerer bestehender vortrainierter uni-modaler Modelle entworfen: zum Beispiel ein Bildklassifikator mit einem Textmodell. Dieser Verknüpfungsprozess wird durch das Training eines Verbindungsmoduls durchgeführt, das darauf abzielt, die Repräsentationsräume dieser uni-modalen Modelle auf ein multi-modales Ziel auszurichten. Angesichts der Komplexität des Trainings solcher Verbindungsmodule auf groß angelegten, webbasierten Datensätzen sowie der ständig wachsenden Anzahl verfügbarer vortrainierter uni-modaler Modelle wird die Aufgabe der Auswahl uni-modaler Modelle und des anschließenden Trainings des Verbindungsmoduls rechenintensiv. Um dieses bisher wenig erforschte kritische Problem zu lösen, schlagen wir Hypernetwork Model Alignment (Hyma) vor, eine neuartige All-in-One-Lösung für die optimale Auswahl uni-modaler Modelle und das Training von Verbindungsmodulen durch die Nutzung von Hypernetzwerken. Konkret nutzt unser Framework die Parameter-Vorhersagefähigkeit eines Hypernetzwerks, um gemeinsam trainierte Verbindungsmodule für N mal M Kombinationen von uni-modalen Modellen zu erhalten. In unseren Experimenten reduziert Hyma die Kosten für die Suche nach dem bestperformenden uni-modalen Modellpaar um das Zehnfache, während es die Rangfolge und die Leistung der trainierten Verbindungsmodule, die durch eine Grid-Search über eine Reihe von diversen multi-modalen Benchmarks erzielt wurden, erreicht.
English
Foundation multi-modal models are often designed by stitching of multiple existing pretrained uni-modal models: for example, an image classifier with an text model. This stitching process is performed by training a connector module that aims to align the representation spaces of these uni-modal models towards a multi-modal objective. However, given the complexity of training such connectors on large scale web-based datasets coupled with the ever-increasing number of available pretrained uni-modal models, the task of uni-modal models selection and subsequent connector module training becomes computationally demanding. To address this under-studied critical problem, we propose Hypernetwork Model Alignment (Hyma), a novel all-in-one solution for optimal uni-modal model selection and connector training by leveraging hypernetworks. Specifically, our framework utilizes the parameter prediction capability of a hypernetwork to obtain jointly trained connector modules for N times M combinations of uni-modal models. In our experiments, Hyma reduces the cost of searching for the best performing uni-modal model pair by 10times, while matching the ranking and trained connector performance obtained via grid search across a suite of diverse multi-modal benchmarks.
PDF01July 18, 2025