Мультимодальный путь: Улучшение трансформеров с использованием нерелевантных данных из других модальностей
Multimodal Pathway: Improve Transformers with Irrelevant Data from Other Modalities
January 25, 2024
Авторы: Yiyuan Zhang, Xiaohan Ding, Kaixiong Gong, Yixiao Ge, Ying Shan, Xiangyu Yue
cs.AI
Аннотация
Мы предлагаем улучшать трансформеры для конкретной модальности с использованием нерелевантных данных из других модальностей, например, улучшать модель для ImageNet с помощью аудио или наборов данных с точечными облаками. Важно подчеркнуть, что образцы данных целевой модальности не связаны с другими модальностями, что отличает наш метод от других подходов, использующих парные (например, CLIP) или чередующиеся данные различных модальностей. Мы предлагаем методологию под названием Multimodal Pathway — для заданной целевой модальности и трансформера, разработанного для неё, мы используем вспомогательный трансформер, обученный на данных другой модальности, и создаем пути для соединения компонентов двух моделей, чтобы данные целевой модальности могли обрабатываться обеими моделями. Таким образом, мы используем универсальные способности трансформеров к моделированию последовательностей, полученные из двух модальностей. В качестве конкретной реализации мы используем модальность-специфичный токенизатор и задаче-специфичную голову, как обычно, но задействуем блоки трансформера вспомогательной модели с помощью предложенного метода Cross-Modal Re-parameterization, который использует веса вспомогательной модели без дополнительных затрат на вывод. На задачах распознавания изображений, точечных облаков, видео и аудио мы наблюдаем значительные и устойчивые улучшения производительности с использованием нерелевантных данных из других модальностей. Код и модели доступны по адресу https://github.com/AILab-CVC/M2PT.
English
We propose to improve transformers of a specific modality with irrelevant
data from other modalities, e.g., improve an ImageNet model with audio or point
cloud datasets. We would like to highlight that the data samples of the target
modality are irrelevant to the other modalities, which distinguishes our method
from other works utilizing paired (e.g., CLIP) or interleaved data of different
modalities. We propose a methodology named Multimodal Pathway - given a target
modality and a transformer designed for it, we use an auxiliary transformer
trained with data of another modality and construct pathways to connect
components of the two models so that data of the target modality can be
processed by both models. In this way, we utilize the universal
sequence-to-sequence modeling abilities of transformers obtained from two
modalities. As a concrete implementation, we use a modality-specific tokenizer
and task-specific head as usual but utilize the transformer blocks of the
auxiliary model via a proposed method named Cross-Modal Re-parameterization,
which exploits the auxiliary weights without any inference costs. On the image,
point cloud, video, and audio recognition tasks, we observe significant and
consistent performance improvements with irrelevant data from other modalities.
The code and models are available at https://github.com/AILab-CVC/M2PT.