(Prácticamente) Coste Cero en la Unión de Modalidades de Modelos Fundacionales
(Almost) Free Modality Stitching of Foundation Models
July 14, 2025
Autores: Jaisidh Singh, Diganta Misra, Boris Knyazev, Antonio Orvieto
cs.AI
Resumen
Los modelos multimodales de base a menudo se diseñan mediante la combinación de múltiples modelos unimodales preentrenados existentes: por ejemplo, un clasificador de imágenes con un modelo de texto. Este proceso de combinación se realiza entrenando un módulo conector que tiene como objetivo alinear los espacios de representación de estos modelos unimodales hacia un objetivo multimodal. Sin embargo, dada la complejidad de entrenar tales conectores en conjuntos de datos a gran escala basados en la web, junto con el número cada vez mayor de modelos unimodales preentrenados disponibles, la tarea de selección de modelos unimodales y el posterior entrenamiento del módulo conector se vuelve computacionalmente exigente. Para abordar este problema crítico poco estudiado, proponemos Hypernetwork Model Alignment (Hyma), una solución novedosa todo en uno para la selección óptima de modelos unimodales y el entrenamiento de conectores mediante el uso de hiperredes. Específicamente, nuestro marco utiliza la capacidad de predicción de parámetros de una hiperred para obtener módulos conectores entrenados conjuntamente para N por M combinaciones de modelos unimodales. En nuestros experimentos, Hyma reduce el costo de búsqueda del par de modelos unimodales de mejor rendimiento en 10 veces, mientras iguala la clasificación y el rendimiento del conector entrenado obtenido mediante búsqueda exhaustiva en una serie de benchmarks multimodales diversos.
English
Foundation multi-modal models are often designed by stitching of multiple
existing pretrained uni-modal models: for example, an image classifier with an
text model. This stitching process is performed by training a connector module
that aims to align the representation spaces of these uni-modal models towards
a multi-modal objective. However, given the complexity of training such
connectors on large scale web-based datasets coupled with the ever-increasing
number of available pretrained uni-modal models, the task of uni-modal models
selection and subsequent connector module training becomes computationally
demanding. To address this under-studied critical problem, we propose
Hypernetwork Model Alignment (Hyma), a novel all-in-one solution for optimal
uni-modal model selection and connector training by leveraging hypernetworks.
Specifically, our framework utilizes the parameter prediction capability of a
hypernetwork to obtain jointly trained connector modules for N times M
combinations of uni-modal models. In our experiments, Hyma reduces the cost of
searching for the best performing uni-modal model pair by 10times, while
matching the ranking and trained connector performance obtained via grid search
across a suite of diverse multi-modal benchmarks.