Mejor Juntos: Aprovechando Datos Multimodales No Emparejados para Modelos Unimodales Más Robustos
Better Together: Leveraging Unpaired Multimodal Data for Stronger Unimodal Models
October 9, 2025
Autores: Sharut Gupta, Shobhita Sundaram, Chenyu Wang, Stefanie Jegelka, Phillip Isola
cs.AI
Resumen
Los modelos tradicionales de aprendizaje multimodal buscan representaciones unificadas para tareas como la respuesta visual a preguntas, pero dependen en gran medida de conjuntos de datos emparejados. Sin embargo, una pregunta pasada por alto pero potencialmente poderosa es: ¿se pueden aprovechar datos multimodales auxiliares no emparejados para mejorar directamente el aprendizaje de representaciones en una modalidad objetivo? Presentamos UML: Unpaired Multimodal Learner, un paradigma de entrenamiento agnóstico a la modalidad en el que un único modelo procesa alternativamente entradas de diferentes modalidades mientras comparte parámetros entre ellas. Este diseño explota la suposición de que diferentes modalidades son proyecciones de una realidad subyacente compartida, permitiendo que el modelo se beneficie de la estructura cruzada entre modalidades sin requerir pares explícitos. Teóricamente, bajo supuestos lineales de generación de datos, demostramos que los datos auxiliares no emparejados pueden producir representaciones estrictamente más informativas sobre el proceso generador de datos que el entrenamiento unimodal. Empíricamente, mostramos que el uso de datos no emparejados de modalidades auxiliares —como texto, audio o imágenes— mejora consistentemente el rendimiento en tareas unimodales diversas, como el procesamiento de imágenes y audio. Nuestra página del proyecto: https://unpaired-multimodal.github.io/
English
Traditional multimodal learners find unified representations for tasks like
visual question answering, but rely heavily on paired datasets. However, an
overlooked yet potentially powerful question is: can one leverage auxiliary
unpaired multimodal data to directly enhance representation learning in a
target modality? We introduce UML: Unpaired Multimodal Learner, a
modality-agnostic training paradigm in which a single model alternately
processes inputs from different modalities while sharing parameters across
them. This design exploits the assumption that different modalities are
projections of a shared underlying reality, allowing the model to benefit from
cross-modal structure without requiring explicit pairs. Theoretically, under
linear data-generating assumptions, we show that unpaired auxiliary data can
yield representations strictly more informative about the data-generating
process than unimodal training. Empirically, we show that using unpaired data
from auxiliary modalities -- such as text, audio, or images -- consistently
improves downstream performance across diverse unimodal targets such as image
and audio. Our project page: https://unpaired-multimodal.github.io/