ChatPaper.aiChatPaper

Beter Samen: Benutten van Ongepaarde Multimodale Data voor Sterkere Unimodale Modellen

Better Together: Leveraging Unpaired Multimodal Data for Stronger Unimodal Models

October 9, 2025
Auteurs: Sharut Gupta, Shobhita Sundaram, Chenyu Wang, Stefanie Jegelka, Phillip Isola
cs.AI

Samenvatting

Traditionele multimodale leerders vinden geünificeerde representaties voor taken zoals visuele vraagbeantwoording, maar zijn sterk afhankelijk van gepaarde datasets. Een over het hoofd gezien maar potentieel krachtige vraag is echter: kan men aanvullende ongepaarde multimodale data benutten om de representatieleer in een doelmodaliteit direct te verbeteren? Wij introduceren UML: Unpaired Multimodal Learner, een modaliteitsagnostisch trainingsparadigma waarin een enkel model afwisselend invoer van verschillende modaliteiten verwerkt terwijl het parameters deelt tussen deze modaliteiten. Dit ontwerp maakt gebruik van de aanname dat verschillende modaliteiten projecties zijn van een gedeelde onderliggende realiteit, waardoor het model kan profiteren van cross-modale structuur zonder expliciete paren nodig te hebben. Theoretisch tonen we aan, onder lineaire data-genererende aannames, dat ongepaarde aanvullende data representaties kan opleveren die strikt meer informatief zijn over het data-genererende proces dan unimodale training. Empirisch laten we zien dat het gebruik van ongepaarde data van aanvullende modaliteiten – zoals tekst, audio of afbeeldingen – consequent de downstream-prestaties verbetert over diverse unimodale doelen zoals afbeeldingen en audio. Onze projectpagina: https://unpaired-multimodal.github.io/
English
Traditional multimodal learners find unified representations for tasks like visual question answering, but rely heavily on paired datasets. However, an overlooked yet potentially powerful question is: can one leverage auxiliary unpaired multimodal data to directly enhance representation learning in a target modality? We introduce UML: Unpaired Multimodal Learner, a modality-agnostic training paradigm in which a single model alternately processes inputs from different modalities while sharing parameters across them. This design exploits the assumption that different modalities are projections of a shared underlying reality, allowing the model to benefit from cross-modal structure without requiring explicit pairs. Theoretically, under linear data-generating assumptions, we show that unpaired auxiliary data can yield representations strictly more informative about the data-generating process than unimodal training. Empirically, we show that using unpaired data from auxiliary modalities -- such as text, audio, or images -- consistently improves downstream performance across diverse unimodal targets such as image and audio. Our project page: https://unpaired-multimodal.github.io/
PDF61October 13, 2025