Percorso Multimodale: Migliorare i Trasformatori con Dati Irrilevanti da Altre Modalità
Multimodal Pathway: Improve Transformers with Irrelevant Data from Other Modalities
January 25, 2024
Autori: Yiyuan Zhang, Xiaohan Ding, Kaixiong Gong, Yixiao Ge, Ying Shan, Xiangyu Yue
cs.AI
Abstract
Proponiamo di migliorare i transformer di una specifica modalità utilizzando dati irrilevanti provenienti da altre modalità, ad esempio migliorare un modello ImageNet con dataset audio o di nuvole di punti. Vorremmo sottolineare che i campioni di dati della modalità target sono irrilevanti rispetto alle altre modalità, il che distingue il nostro metodo da altri lavori che utilizzano dati accoppiati (ad esempio, CLIP) o intervallati di diverse modalità. Proponiamo una metodologia denominata Multimodal Pathway: data una modalità target e un transformer progettato per essa, utilizziamo un transformer ausiliario addestrato con dati di un'altra modalità e costruiamo percorsi per collegare i componenti dei due modelli in modo che i dati della modalità target possano essere elaborati da entrambi i modelli. In questo modo, sfruttiamo le capacità universali di modellazione sequenza-a-sequenza dei transformer ottenute da due modalità. Come implementazione concreta, utilizziamo un tokenizer specifico per la modalità e una testa specifica per il compito come di consueto, ma sfruttiamo i blocchi transformer del modello ausiliario attraverso un metodo proposto chiamato Cross-Modal Re-parameterization, che sfrutta i pesi ausiliari senza alcun costo di inferenza. Sui compiti di riconoscimento di immagini, nuvole di punti, video e audio, osserviamo miglioramenti significativi e consistenti delle prestazioni con dati irrilevanti provenienti da altre modalità. Il codice e i modelli sono disponibili all'indirizzo https://github.com/AILab-CVC/M2PT.
English
We propose to improve transformers of a specific modality with irrelevant
data from other modalities, e.g., improve an ImageNet model with audio or point
cloud datasets. We would like to highlight that the data samples of the target
modality are irrelevant to the other modalities, which distinguishes our method
from other works utilizing paired (e.g., CLIP) or interleaved data of different
modalities. We propose a methodology named Multimodal Pathway - given a target
modality and a transformer designed for it, we use an auxiliary transformer
trained with data of another modality and construct pathways to connect
components of the two models so that data of the target modality can be
processed by both models. In this way, we utilize the universal
sequence-to-sequence modeling abilities of transformers obtained from two
modalities. As a concrete implementation, we use a modality-specific tokenizer
and task-specific head as usual but utilize the transformer blocks of the
auxiliary model via a proposed method named Cross-Modal Re-parameterization,
which exploits the auxiliary weights without any inference costs. On the image,
point cloud, video, and audio recognition tasks, we observe significant and
consistent performance improvements with irrelevant data from other modalities.
The code and models are available at https://github.com/AILab-CVC/M2PT.