Besser zusammen: Nutzung ungepaarter multimodaler Daten für stärkere unimodale Modelle

papers.abstract

Traditionelle multimodale Lernmodelle finden einheitliche Repräsentationen für Aufgaben wie visuelle Fragebeantwortung, sind jedoch stark auf gepaarte Datensätze angewiesen. Eine jedoch übersehene, aber potenziell mächtige Frage ist: Kann man zusätzliche ungepaarte multimodale Daten nutzen, um die Repräsentationslernprozesse in einer Zielmodalität direkt zu verbessern? Wir stellen UML vor: Unpaired Multimodal Learner, ein modalitätsagnostisches Trainingsparadigma, bei dem ein einzelnes Modell abwechselnd Eingaben aus verschiedenen Modalitäten verarbeitet, während Parameter zwischen ihnen geteilt werden. Dieser Ansatz nutzt die Annahme, dass verschiedene Modalitäten Projektionen einer gemeinsamen zugrunde liegenden Realität sind, wodurch das Modell von der cross-modalen Struktur profitieren kann, ohne explizite Paare zu benötigen. Theoretisch zeigen wir unter linearen Daten-generierenden Annahmen, dass ungepaarte zusätzliche Daten Repräsentationen liefern können, die strikt informativer über den Daten-generierenden Prozess sind als unimodales Training. Empirisch zeigen wir, dass die Verwendung ungepaarter Daten aus zusätzlichen Modalitäten – wie Text, Audio oder Bildern – die nachgelagerte Leistung über diverse unimodale Ziele wie Bild und Audio konsequent verbessert. Unsere Projektseite: https://unpaired-multimodal.github.io/

English

Traditional multimodal learners find unified representations for tasks like visual question answering, but rely heavily on paired datasets. However, an overlooked yet potentially powerful question is: can one leverage auxiliary unpaired multimodal data to directly enhance representation learning in a target modality? We introduce UML: Unpaired Multimodal Learner, a modality-agnostic training paradigm in which a single model alternately processes inputs from different modalities while sharing parameters across them. This design exploits the assumption that different modalities are projections of a shared underlying reality, allowing the model to benefit from cross-modal structure without requiring explicit pairs. Theoretically, under linear data-generating assumptions, we show that unpaired auxiliary data can yield representations strictly more informative about the data-generating process than unimodal training. Empirically, we show that using unpaired data from auxiliary modalities -- such as text, audio, or images -- consistently improves downstream performance across diverse unimodal targets such as image and audio. Our project page: https://unpaired-multimodal.github.io/

Besser zusammen: Nutzung ungepaarter multimodaler Daten für stärkere unimodale Modelle

Better Together: Leveraging Unpaired Multimodal Data for Stronger Unimodal Models

papers.abstract

Support