Mejor Juntos: Aprovechando Datos Multimodales No Emparejados para Modelos Unimodales Más Robustos

Resumen

Los modelos tradicionales de aprendizaje multimodal buscan representaciones unificadas para tareas como la respuesta visual a preguntas, pero dependen en gran medida de conjuntos de datos emparejados. Sin embargo, una pregunta pasada por alto pero potencialmente poderosa es: ¿se pueden aprovechar datos multimodales auxiliares no emparejados para mejorar directamente el aprendizaje de representaciones en una modalidad objetivo? Presentamos UML: Unpaired Multimodal Learner, un paradigma de entrenamiento agnóstico a la modalidad en el que un único modelo procesa alternativamente entradas de diferentes modalidades mientras comparte parámetros entre ellas. Este diseño explota la suposición de que diferentes modalidades son proyecciones de una realidad subyacente compartida, permitiendo que el modelo se beneficie de la estructura cruzada entre modalidades sin requerir pares explícitos. Teóricamente, bajo supuestos lineales de generación de datos, demostramos que los datos auxiliares no emparejados pueden producir representaciones estrictamente más informativas sobre el proceso generador de datos que el entrenamiento unimodal. Empíricamente, mostramos que el uso de datos no emparejados de modalidades auxiliares —como texto, audio o imágenes— mejora consistentemente el rendimiento en tareas unimodales diversas, como el procesamiento de imágenes y audio. Nuestra página del proyecto: https://unpaired-multimodal.github.io/

English

Traditional multimodal learners find unified representations for tasks like visual question answering, but rely heavily on paired datasets. However, an overlooked yet potentially powerful question is: can one leverage auxiliary unpaired multimodal data to directly enhance representation learning in a target modality? We introduce UML: Unpaired Multimodal Learner, a modality-agnostic training paradigm in which a single model alternately processes inputs from different modalities while sharing parameters across them. This design exploits the assumption that different modalities are projections of a shared underlying reality, allowing the model to benefit from cross-modal structure without requiring explicit pairs. Theoretically, under linear data-generating assumptions, we show that unpaired auxiliary data can yield representations strictly more informative about the data-generating process than unimodal training. Empirically, we show that using unpaired data from auxiliary modalities -- such as text, audio, or images -- consistently improves downstream performance across diverse unimodal targets such as image and audio. Our project page: https://unpaired-multimodal.github.io/

Mejor Juntos: Aprovechando Datos Multimodales No Emparejados para Modelos Unimodales Más Robustos

Better Together: Leveraging Unpaired Multimodal Data for Stronger Unimodal Models

Resumen

Support