共により良く:より強力な単一モーダルモデルのための非対称マルチモーダルデータの活用
Better Together: Leveraging Unpaired Multimodal Data for Stronger Unimodal Models
October 9, 2025
著者: Sharut Gupta, Shobhita Sundaram, Chenyu Wang, Stefanie Jegelka, Phillip Isola
cs.AI
要旨
従来のマルチモーダル学習者は、視覚的質問応答などのタスクに対して統一的な表現を見つけますが、ペアになったデータセットに大きく依存しています。しかし、見過ごされながらも潜在的に強力な疑問があります:補助的なペアになっていないマルチモーダルデータを活用して、ターゲットモダリティにおける表現学習を直接強化することは可能か?私たちはUML: Unpaired Multimodal Learnerを紹介します。これは、単一のモデルが異なるモダリティからの入力を交互に処理しながら、それらにわたってパラメータを共有するモダリティに依存しないトレーニングパラダイムです。この設計は、異なるモダリティが共有された現実の投影であるという仮定を利用し、明示的なペアを必要とせずにクロスモーダル構造から利益を得ることを可能にします。理論的には、線形データ生成仮定の下で、ペアになっていない補助データが、単一モーダルトレーニングよりもデータ生成プロセスについて厳密に情報量の多い表現を生み出すことを示します。経験的には、テキスト、オーディオ、画像などの補助モダリティからのペアになっていないデータを使用することで、画像やオーディオなどの多様な単一モーダルターゲットにおける下流のパフォーマンスが一貫して向上することを示します。私たちのプロジェクトページはこちらです:https://unpaired-multimodal.github.io/
English
Traditional multimodal learners find unified representations for tasks like
visual question answering, but rely heavily on paired datasets. However, an
overlooked yet potentially powerful question is: can one leverage auxiliary
unpaired multimodal data to directly enhance representation learning in a
target modality? We introduce UML: Unpaired Multimodal Learner, a
modality-agnostic training paradigm in which a single model alternately
processes inputs from different modalities while sharing parameters across
them. This design exploits the assumption that different modalities are
projections of a shared underlying reality, allowing the model to benefit from
cross-modal structure without requiring explicit pairs. Theoretically, under
linear data-generating assumptions, we show that unpaired auxiliary data can
yield representations strictly more informative about the data-generating
process than unimodal training. Empirically, we show that using unpaired data
from auxiliary modalities -- such as text, audio, or images -- consistently
improves downstream performance across diverse unimodal targets such as image
and audio. Our project page: https://unpaired-multimodal.github.io/