ChatPaper.aiChatPaper

Melhor Juntos: Aproveitando Dados Multimodais Não Pareados para Modelos Unimodais Mais Fortes

Better Together: Leveraging Unpaired Multimodal Data for Stronger Unimodal Models

October 9, 2025
Autores: Sharut Gupta, Shobhita Sundaram, Chenyu Wang, Stefanie Jegelka, Phillip Isola
cs.AI

Resumo

Os aprendizes multimodais tradicionais encontram representações unificadas para tarefas como resposta a perguntas visuais, mas dependem fortemente de conjuntos de dados pareados. No entanto, uma questão negligenciada, mas potencialmente poderosa, é: pode-se aproveitar dados multimodais auxiliares não pareados para aprimorar diretamente o aprendizado de representações em uma modalidade alvo? Apresentamos o UML: Unpaired Multimodal Learner, um paradigma de treinamento agnóstico à modalidade no qual um único modelo processa alternadamente entradas de diferentes modalidades enquanto compartilha parâmetros entre elas. Esse design explora a suposição de que diferentes modalidades são projeções de uma realidade subjacente compartilhada, permitindo que o modelo se beneficie da estrutura cruzada entre modalidades sem exigir pares explícitos. Teoricamente, sob suposições lineares de geração de dados, mostramos que dados auxiliares não pareados podem produzir representações estritamente mais informativas sobre o processo de geração de dados do que o treinamento unimodal. Empiricamente, demonstramos que o uso de dados não pareados de modalidades auxiliares — como texto, áudio ou imagens — melhora consistentemente o desempenho em tarefas subsequentes em diversos alvos unimodais, como imagem e áudio. Nossa página do projeto: https://unpaired-multimodal.github.io/
English
Traditional multimodal learners find unified representations for tasks like visual question answering, but rely heavily on paired datasets. However, an overlooked yet potentially powerful question is: can one leverage auxiliary unpaired multimodal data to directly enhance representation learning in a target modality? We introduce UML: Unpaired Multimodal Learner, a modality-agnostic training paradigm in which a single model alternately processes inputs from different modalities while sharing parameters across them. This design exploits the assumption that different modalities are projections of a shared underlying reality, allowing the model to benefit from cross-modal structure without requiring explicit pairs. Theoretically, under linear data-generating assumptions, we show that unpaired auxiliary data can yield representations strictly more informative about the data-generating process than unimodal training. Empirically, we show that using unpaired data from auxiliary modalities -- such as text, audio, or images -- consistently improves downstream performance across diverse unimodal targets such as image and audio. Our project page: https://unpaired-multimodal.github.io/
PDF61October 13, 2025