Mieux ensemble : Exploiter les données multimodales non appariées pour renforcer les modèles unimodaux

papers.abstract

Les approches multimodales traditionnelles cherchent à établir des représentations unifiées pour des tâches comme la réponse à des questions visuelles, mais elles reposent fortement sur des ensembles de données appariées. Cependant, une question négligée mais potentiellement puissante est : peut-on exploiter des données multimodales auxiliaires non appariées pour améliorer directement l'apprentissage de représentations dans une modalité cible ? Nous présentons UML : Unpaired Multimodal Learner, un paradigme d'entraînement agnostique à la modalité dans lequel un seul modèle traite alternativement des entrées provenant de différentes modalités tout en partageant des paramètres entre elles. Cette conception exploite l'hypothèse selon laquelle différentes modalités sont des projections d'une réalité sous-jacente commune, permettant au modèle de bénéficier d'une structure intermodale sans nécessiter de paires explicites. Théoriquement, sous des hypothèses linéaires de génération de données, nous montrons que des données auxiliaires non appariées peuvent produire des représentations strictement plus informatives sur le processus de génération des données que l'entraînement unimodal. Empiriquement, nous démontrons que l'utilisation de données non appariées provenant de modalités auxiliaires -- telles que le texte, l'audio ou les images -- améliore systématiquement les performances en aval pour diverses cibles unimodales comme l'image et l'audio. Notre page de projet : https://unpaired-multimodal.github.io/

English

Traditional multimodal learners find unified representations for tasks like visual question answering, but rely heavily on paired datasets. However, an overlooked yet potentially powerful question is: can one leverage auxiliary unpaired multimodal data to directly enhance representation learning in a target modality? We introduce UML: Unpaired Multimodal Learner, a modality-agnostic training paradigm in which a single model alternately processes inputs from different modalities while sharing parameters across them. This design exploits the assumption that different modalities are projections of a shared underlying reality, allowing the model to benefit from cross-modal structure without requiring explicit pairs. Theoretically, under linear data-generating assumptions, we show that unpaired auxiliary data can yield representations strictly more informative about the data-generating process than unimodal training. Empirically, we show that using unpaired data from auxiliary modalities -- such as text, audio, or images -- consistently improves downstream performance across diverse unimodal targets such as image and audio. Our project page: https://unpaired-multimodal.github.io/

Mieux ensemble : Exploiter les données multimodales non appariées pour renforcer les modèles unimodaux

Better Together: Leveraging Unpaired Multimodal Data for Stronger Unimodal Models

papers.abstract

Support