ChatPaper.aiChatPaper

Caminho Multimodal: Melhorando Transformers com Dados Irrelevantes de Outras Modalidades

Multimodal Pathway: Improve Transformers with Irrelevant Data from Other Modalities

January 25, 2024
Autores: Yiyuan Zhang, Xiaohan Ding, Kaixiong Gong, Yixiao Ge, Ying Shan, Xiangyu Yue
cs.AI

Resumo

Propomos melhorar transformadores de uma modalidade específica com dados irrelevantes de outras modalidades, por exemplo, aprimorar um modelo do ImageNet com conjuntos de dados de áudio ou nuvens de pontos. Gostaríamos de destacar que as amostras de dados da modalidade alvo são irrelevantes para as outras modalidades, o que distingue nosso método de outros trabalhos que utilizam dados pareados (por exemplo, CLIP) ou intercalados de diferentes modalidades. Propomos uma metodologia chamada Multimodal Pathway - dada uma modalidade alvo e um transformador projetado para ela, utilizamos um transformador auxiliar treinado com dados de outra modalidade e construímos caminhos para conectar componentes dos dois modelos, de modo que os dados da modalidade alvo possam ser processados por ambos os modelos. Dessa forma, utilizamos as habilidades universais de modelagem sequência-a-sequência dos transformadores obtidas de duas modalidades. Como uma implementação concreta, usamos um tokenizer específico da modalidade e um cabeçalho específico da tarefa, como de costume, mas utilizamos os blocos do transformador do modelo auxiliar por meio de um método proposto chamado Re-parametrização Cross-Modal, que explora os pesos auxiliares sem custos adicionais de inferência. Nas tarefas de reconhecimento de imagens, nuvens de pontos, vídeos e áudio, observamos melhorias de desempenho significativas e consistentes com dados irrelevantes de outras modalidades. O código e os modelos estão disponíveis em https://github.com/AILab-CVC/M2PT.
English
We propose to improve transformers of a specific modality with irrelevant data from other modalities, e.g., improve an ImageNet model with audio or point cloud datasets. We would like to highlight that the data samples of the target modality are irrelevant to the other modalities, which distinguishes our method from other works utilizing paired (e.g., CLIP) or interleaved data of different modalities. We propose a methodology named Multimodal Pathway - given a target modality and a transformer designed for it, we use an auxiliary transformer trained with data of another modality and construct pathways to connect components of the two models so that data of the target modality can be processed by both models. In this way, we utilize the universal sequence-to-sequence modeling abilities of transformers obtained from two modalities. As a concrete implementation, we use a modality-specific tokenizer and task-specific head as usual but utilize the transformer blocks of the auxiliary model via a proposed method named Cross-Modal Re-parameterization, which exploits the auxiliary weights without any inference costs. On the image, point cloud, video, and audio recognition tasks, we observe significant and consistent performance improvements with irrelevant data from other modalities. The code and models are available at https://github.com/AILab-CVC/M2PT.
PDF132February 7, 2026