Multimodaler Pfad: Verbesserung von Transformern durch irrelevante Daten aus anderen Modalitäten
Multimodal Pathway: Improve Transformers with Irrelevant Data from Other Modalities
January 25, 2024
Autoren: Yiyuan Zhang, Xiaohan Ding, Kaixiong Gong, Yixiao Ge, Ying Shan, Xiangyu Yue
cs.AI
Zusammenfassung
Wir schlagen vor, Transformer einer bestimmten Modalität mit irrelevanten Daten aus anderen Modalitäten zu verbessern, z. B. ein ImageNet-Modell mit Audio- oder Punktwolken-Datensätzen. Wir möchten hervorheben, dass die Datenproben der Zielmodalität für die anderen Modalitäten irrelevant sind, was unsere Methode von anderen Arbeiten unterscheidet, die gepaarte (z. B. CLIP) oder verschachtelte Daten verschiedener Modalitäten nutzen. Wir schlagen eine Methodik namens Multimodal Pathway vor – gegeben eine Zielmodalität und einen dafür entwickelten Transformer, verwenden wir einen zusätzlichen Transformer, der mit Daten einer anderen Modalität trainiert wurde, und konstruieren Pfade, um Komponenten der beiden Modelle zu verbinden, sodass Daten der Zielmodalität von beiden Modellen verarbeitet werden können. Auf diese Weise nutzen wir die universellen Sequenz-zu-Sequenz-Modellierungsfähigkeiten von Transformern, die aus zwei Modalitäten gewonnen wurden. Als konkrete Implementierung verwenden wir wie üblich einen modalitätsspezifischen Tokenizer und einen aufgaben-spezifischen Head, nutzen jedoch die Transformer-Blöcke des zusätzlichen Modells über eine vorgeschlagene Methode namens Cross-Modal Re-parameterization, die die zusätzlichen Gewichte ohne jegliche Inferenzkosten ausnutzt. Bei Bild-, Punktwolken-, Video- und Audio-Erkennungsaufgaben beobachten wir signifikante und konsistente Leistungsverbesserungen mit irrelevanten Daten aus anderen Modalitäten. Der Code und die Modelle sind unter https://github.com/AILab-CVC/M2PT verfügbar.
English
We propose to improve transformers of a specific modality with irrelevant
data from other modalities, e.g., improve an ImageNet model with audio or point
cloud datasets. We would like to highlight that the data samples of the target
modality are irrelevant to the other modalities, which distinguishes our method
from other works utilizing paired (e.g., CLIP) or interleaved data of different
modalities. We propose a methodology named Multimodal Pathway - given a target
modality and a transformer designed for it, we use an auxiliary transformer
trained with data of another modality and construct pathways to connect
components of the two models so that data of the target modality can be
processed by both models. In this way, we utilize the universal
sequence-to-sequence modeling abilities of transformers obtained from two
modalities. As a concrete implementation, we use a modality-specific tokenizer
and task-specific head as usual but utilize the transformer blocks of the
auxiliary model via a proposed method named Cross-Modal Re-parameterization,
which exploits the auxiliary weights without any inference costs. On the image,
point cloud, video, and audio recognition tasks, we observe significant and
consistent performance improvements with irrelevant data from other modalities.
The code and models are available at https://github.com/AILab-CVC/M2PT.