Voie Multimodale : Améliorer les Transformers avec des Données Non Pertinentes d’Autres Modalités
Multimodal Pathway: Improve Transformers with Irrelevant Data from Other Modalities
January 25, 2024
Auteurs: Yiyuan Zhang, Xiaohan Ding, Kaixiong Gong, Yixiao Ge, Ying Shan, Xiangyu Yue
cs.AI
Résumé
Nous proposons d’améliorer les transformeurs d’une modalité spécifique en utilisant des données non pertinentes provenant d’autres modalités, par exemple, améliorer un modèle ImageNet avec des ensembles de données audio ou de nuages de points. Nous tenons à souligner que les échantillons de données de la modalité cible ne sont pas pertinents par rapport aux autres modalités, ce qui distingue notre méthode des autres travaux utilisant des données appariées (par exemple, CLIP) ou entrelacées de différentes modalités. Nous proposons une méthodologie appelée Multimodal Pathway : étant donné une modalité cible et un transformeur conçu pour celle-ci, nous utilisons un transformeur auxiliaire entraîné avec des données d’une autre modalité et construisons des chemins pour connecter les composants des deux modèles, de sorte que les données de la modalité cible puissent être traitées par les deux modèles. De cette manière, nous exploitons les capacités universelles de modélisation séquence-à-séquence des transformeurs obtenues à partir de deux modalités. En tant qu’implémentation concrète, nous utilisons un tokenizer spécifique à la modalité et une tête spécifique à la tâche comme d’habitude, mais nous exploitons les blocs de transformeurs du modèle auxiliaire via une méthode proposée appelée Reparamétrisation Transmodale, qui utilise les poids auxiliaires sans aucun coût d’inférence. Sur les tâches de reconnaissance d’images, de nuages de points, de vidéos et d’audio, nous observons des améliorations significatives et cohérentes des performances avec des données non pertinentes provenant d’autres modalités. Le code et les modèles sont disponibles à l’adresse https://github.com/AILab-CVC/M2PT.
English
We propose to improve transformers of a specific modality with irrelevant
data from other modalities, e.g., improve an ImageNet model with audio or point
cloud datasets. We would like to highlight that the data samples of the target
modality are irrelevant to the other modalities, which distinguishes our method
from other works utilizing paired (e.g., CLIP) or interleaved data of different
modalities. We propose a methodology named Multimodal Pathway - given a target
modality and a transformer designed for it, we use an auxiliary transformer
trained with data of another modality and construct pathways to connect
components of the two models so that data of the target modality can be
processed by both models. In this way, we utilize the universal
sequence-to-sequence modeling abilities of transformers obtained from two
modalities. As a concrete implementation, we use a modality-specific tokenizer
and task-specific head as usual but utilize the transformer blocks of the
auxiliary model via a proposed method named Cross-Modal Re-parameterization,
which exploits the auxiliary weights without any inference costs. On the image,
point cloud, video, and audio recognition tasks, we observe significant and
consistent performance improvements with irrelevant data from other modalities.
The code and models are available at https://github.com/AILab-CVC/M2PT.