ChatPaper.aiChatPaper

Ruta Multimodal: Mejora de Transformers con Datos Irrelevantes de Otras Modalidades

Multimodal Pathway: Improve Transformers with Irrelevant Data from Other Modalities

January 25, 2024
Autores: Yiyuan Zhang, Xiaohan Ding, Kaixiong Gong, Yixiao Ge, Ying Shan, Xiangyu Yue
cs.AI

Resumen

Proponemos mejorar transformadores de una modalidad específica con datos irrelevantes de otras modalidades, por ejemplo, mejorar un modelo de ImageNet con conjuntos de datos de audio o nubes de puntos. Nos gustaría destacar que las muestras de datos de la modalidad objetivo son irrelevantes para las otras modalidades, lo que distingue nuestro método de otros trabajos que utilizan datos emparejados (por ejemplo, CLIP) o intercalados de diferentes modalidades. Proponemos una metodología denominada Multimodal Pathway: dada una modalidad objetivo y un transformador diseñado para ella, utilizamos un transformador auxiliar entrenado con datos de otra modalidad y construimos vías para conectar componentes de los dos modelos, de modo que los datos de la modalidad objetivo puedan ser procesados por ambos modelos. De esta manera, aprovechamos las capacidades universales de modelado secuencia a secuencia de los transformadores obtenidas de dos modalidades. Como implementación concreta, utilizamos un tokenizador específico de la modalidad y una cabeza específica de la tarea como es habitual, pero aprovechamos los bloques del transformador del modelo auxiliar mediante un método propuesto denominado Re-parametrización Transmodal, que explota los pesos auxiliares sin ningún costo adicional en la inferencia. En las tareas de reconocimiento de imágenes, nubes de puntos, video y audio, observamos mejoras significativas y consistentes en el rendimiento con datos irrelevantes de otras modalidades. El código y los modelos están disponibles en https://github.com/AILab-CVC/M2PT.
English
We propose to improve transformers of a specific modality with irrelevant data from other modalities, e.g., improve an ImageNet model with audio or point cloud datasets. We would like to highlight that the data samples of the target modality are irrelevant to the other modalities, which distinguishes our method from other works utilizing paired (e.g., CLIP) or interleaved data of different modalities. We propose a methodology named Multimodal Pathway - given a target modality and a transformer designed for it, we use an auxiliary transformer trained with data of another modality and construct pathways to connect components of the two models so that data of the target modality can be processed by both models. In this way, we utilize the universal sequence-to-sequence modeling abilities of transformers obtained from two modalities. As a concrete implementation, we use a modality-specific tokenizer and task-specific head as usual but utilize the transformer blocks of the auxiliary model via a proposed method named Cross-Modal Re-parameterization, which exploits the auxiliary weights without any inference costs. On the image, point cloud, video, and audio recognition tasks, we observe significant and consistent performance improvements with irrelevant data from other modalities. The code and models are available at https://github.com/AILab-CVC/M2PT.
PDF132December 15, 2024