ChatPaper.aiChatPaper

Multimodale Pathway: Transformers verbeteren met irrelevante gegevens uit andere modaliteiten

Multimodal Pathway: Improve Transformers with Irrelevant Data from Other Modalities

January 25, 2024
Auteurs: Yiyuan Zhang, Xiaohan Ding, Kaixiong Gong, Yixiao Ge, Ying Shan, Xiangyu Yue
cs.AI

Samenvatting

Wij stellen voor om transformers van een specifieke modaliteit te verbeteren met irrelevante gegevens van andere modaliteiten, bijvoorbeeld een ImageNet-model te verbeteren met audio- of pointclouddatasets. Wij willen benadrukken dat de gegevensmonsters van de doelmodaliteit irrelevant zijn voor de andere modaliteiten, wat onze methode onderscheidt van andere werken die gebruikmaken van gepaarde (bijvoorbeeld CLIP) of verweven gegevens van verschillende modaliteiten. Wij stellen een methodologie voor genaamd Multimodal Pathway - gegeven een doelmodaliteit en een transformer die daarvoor is ontworpen, gebruiken wij een hulptransformer die is getraind met gegevens van een andere modaliteit en construeren wij paden om componenten van de twee modellen te verbinden, zodat gegevens van de doelmodaliteit door beide modellen kunnen worden verwerkt. Op deze manier benutten wij de universele sequence-to-sequence modelleervaardigheden van transformers die zijn verkregen uit twee modaliteiten. Als concrete implementatie gebruiken wij een modaliteitsspecifieke tokenizer en een taakspecifieke head zoals gebruikelijk, maar benutten wij de transformerblokken van het hulpmodel via een voorgestelde methode genaamd Cross-Modal Re-parameterization, die de hulpgewichten benut zonder enige inferentiekosten. Bij de taken voor beeld-, pointcloud-, video- en audioherkenning observeren wij significante en consistente prestatieverbeteringen met irrelevante gegevens van andere modaliteiten. De code en modellen zijn beschikbaar op https://github.com/AILab-CVC/M2PT.
English
We propose to improve transformers of a specific modality with irrelevant data from other modalities, e.g., improve an ImageNet model with audio or point cloud datasets. We would like to highlight that the data samples of the target modality are irrelevant to the other modalities, which distinguishes our method from other works utilizing paired (e.g., CLIP) or interleaved data of different modalities. We propose a methodology named Multimodal Pathway - given a target modality and a transformer designed for it, we use an auxiliary transformer trained with data of another modality and construct pathways to connect components of the two models so that data of the target modality can be processed by both models. In this way, we utilize the universal sequence-to-sequence modeling abilities of transformers obtained from two modalities. As a concrete implementation, we use a modality-specific tokenizer and task-specific head as usual but utilize the transformer blocks of the auxiliary model via a proposed method named Cross-Modal Re-parameterization, which exploits the auxiliary weights without any inference costs. On the image, point cloud, video, and audio recognition tasks, we observe significant and consistent performance improvements with irrelevant data from other modalities. The code and models are available at https://github.com/AILab-CVC/M2PT.
PDF132February 7, 2026