함께 더 나아지기: 더 강력한 단일 모달 모델을 위한 비대응 멀티모달 데이터 활용
Better Together: Leveraging Unpaired Multimodal Data for Stronger Unimodal Models
October 9, 2025
저자: Sharut Gupta, Shobhita Sundaram, Chenyu Wang, Stefanie Jegelka, Phillip Isola
cs.AI
초록
기존의 다중모달 학습자들은 시각 질의응답과 같은 작업을 위해 통합된 표현을 찾지만, 이는 주로 짝지어진 데이터셋에 크게 의존합니다. 그러나 간과되었지만 잠재적으로 강력한 질문은 다음과 같습니다: 보조적인 짝지어지지 않은 다중모달 데이터를 활용하여 대상 모달리티에서의 표현 학습을 직접적으로 향상시킬 수 있을까요? 우리는 UML(Unpaired Multimodal Learner)을 소개합니다. 이는 단일 모델이 서로 다른 모달리티의 입력을 번갈아 처리하면서 파라미터를 공유하는 모달리티-불가지론적 학습 패러다임입니다. 이 설계는 서로 다른 모달리티들이 공유된 기저 현실의 투영이라는 가정을 활용하여, 명시적인 짝을 요구하지 않고도 교차 모달 구조로부터 이점을 얻을 수 있도록 합니다. 이론적으로, 선형 데이터 생성 가정 하에서, 짝지어지지 않은 보조 데이터가 단일 모달 학습보다 데이터 생성 과정에 대해 엄밀히 더 많은 정보를 제공하는 표현을 산출할 수 있음을 보입니다. 실험적으로, 텍스트, 오디오, 이미지와 같은 보조 모달리티의 짝지어지지 않은 데이터를 사용하는 것이 이미지와 오디오와 같은 다양한 단일 모달 대상에서 하위 작업 성능을 지속적으로 향상시킴을 보여줍니다. 프로젝트 페이지: https://unpaired-multimodal.github.io/
English
Traditional multimodal learners find unified representations for tasks like
visual question answering, but rely heavily on paired datasets. However, an
overlooked yet potentially powerful question is: can one leverage auxiliary
unpaired multimodal data to directly enhance representation learning in a
target modality? We introduce UML: Unpaired Multimodal Learner, a
modality-agnostic training paradigm in which a single model alternately
processes inputs from different modalities while sharing parameters across
them. This design exploits the assumption that different modalities are
projections of a shared underlying reality, allowing the model to benefit from
cross-modal structure without requiring explicit pairs. Theoretically, under
linear data-generating assumptions, we show that unpaired auxiliary data can
yield representations strictly more informative about the data-generating
process than unimodal training. Empirically, we show that using unpaired data
from auxiliary modalities -- such as text, audio, or images -- consistently
improves downstream performance across diverse unimodal targets such as image
and audio. Our project page: https://unpaired-multimodal.github.io/