Лучше вместе: использование несопоставленных мультимодальных данных для повышения эффективности унимодальных моделей
Better Together: Leveraging Unpaired Multimodal Data for Stronger Unimodal Models
October 9, 2025
Авторы: Sharut Gupta, Shobhita Sundaram, Chenyu Wang, Stefanie Jegelka, Phillip Isola
cs.AI
Аннотация
Традиционные мультимодальные модели находят унифицированные представления для задач, таких как визуальное ответы на вопросы, но в значительной степени полагаются на парные наборы данных. Однако важный, но часто упускаемый из виду вопрос заключается в следующем: можно ли использовать вспомогательные непарные мультимодальные данные для непосредственного улучшения обучения представлений в целевой модальности? Мы представляем UML: Unpaired Multimodal Learner (Мультимодальный обучающийся на непарных данных) — модально-агностическую парадигму обучения, в которой одна модель поочередно обрабатывает входные данные из разных модальностей, разделяя параметры между ними. Этот подход основывается на предположении, что разные модальности являются проекциями общей базовой реальности, что позволяет модели извлекать пользу из кросс-модальной структуры без необходимости явных пар. Теоретически, в предположении линейного генерирования данных, мы показываем, что непарные вспомогательные данные могут давать представления, строго более информативные о процессе генерации данных, чем обучение на одной модальности. Эмпирически мы демонстрируем, что использование непарных данных из вспомогательных модальностей — таких как текст, аудио или изображения — последовательно улучшает производительность на разнообразных целевых задачах, таких как обработка изображений и аудио. Наша страница проекта: https://unpaired-multimodal.github.io/
English
Traditional multimodal learners find unified representations for tasks like
visual question answering, but rely heavily on paired datasets. However, an
overlooked yet potentially powerful question is: can one leverage auxiliary
unpaired multimodal data to directly enhance representation learning in a
target modality? We introduce UML: Unpaired Multimodal Learner, a
modality-agnostic training paradigm in which a single model alternately
processes inputs from different modalities while sharing parameters across
them. This design exploits the assumption that different modalities are
projections of a shared underlying reality, allowing the model to benefit from
cross-modal structure without requiring explicit pairs. Theoretically, under
linear data-generating assumptions, we show that unpaired auxiliary data can
yield representations strictly more informative about the data-generating
process than unimodal training. Empirically, we show that using unpaired data
from auxiliary modalities -- such as text, audio, or images -- consistently
improves downstream performance across diverse unimodal targets such as image
and audio. Our project page: https://unpaired-multimodal.github.io/