Meglio Insieme: Sfruttare Dati Multimodali Non Accoppiati per Modelli Unimodali Più Robusti

Abstract

I tradizionali modelli multimodali trovano rappresentazioni unificate per compiti come il question answering visivo, ma si basano fortemente su dataset accoppiati. Tuttavia, una domanda trascurata ma potenzialmente potente è: è possibile sfruttare dati multimodali ausiliari non accoppiati per migliorare direttamente l'apprendimento delle rappresentazioni in una modalità target? Introduciamo UML: Unpaired Multimodal Learner, un paradigma di addestramento agnostico rispetto alla modalità in cui un singolo modello elabora alternativamente input provenienti da diverse modalità condividendo i parametri tra di esse. Questo design sfrutta l'assunzione che diverse modalità siano proiezioni di una realtà sottostante condivisa, consentendo al modello di beneficiare della struttura cross-modale senza richiedere coppie esplicite. Teoricamente, sotto ipotesi lineari di generazione dei dati, dimostriamo che i dati ausiliari non accoppiati possono produrre rappresentazioni strettamente più informative riguardo al processo di generazione dei dati rispetto all'addestramento unimodale. Empiricamente, mostriamo che l'uso di dati non accoppiati provenienti da modalità ausiliarie -- come testo, audio o immagini -- migliora costantemente le prestazioni downstream su obiettivi unimodali diversi come immagini e audio. La nostra pagina del progetto: https://unpaired-multimodal.github.io/

English

Traditional multimodal learners find unified representations for tasks like visual question answering, but rely heavily on paired datasets. However, an overlooked yet potentially powerful question is: can one leverage auxiliary unpaired multimodal data to directly enhance representation learning in a target modality? We introduce UML: Unpaired Multimodal Learner, a modality-agnostic training paradigm in which a single model alternately processes inputs from different modalities while sharing parameters across them. This design exploits the assumption that different modalities are projections of a shared underlying reality, allowing the model to benefit from cross-modal structure without requiring explicit pairs. Theoretically, under linear data-generating assumptions, we show that unpaired auxiliary data can yield representations strictly more informative about the data-generating process than unimodal training. Empirically, we show that using unpaired data from auxiliary modalities -- such as text, audio, or images -- consistently improves downstream performance across diverse unimodal targets such as image and audio. Our project page: https://unpaired-multimodal.github.io/

Meglio Insieme: Sfruttare Dati Multimodali Non Accoppiati per Modelli Unimodali Più Robusti

Better Together: Leveraging Unpaired Multimodal Data for Stronger Unimodal Models

Abstract

Support