멀티모달 경로: 다른 모달리티의 무관한 데이터를 활용하여 트랜스포머 성능 향상
Multimodal Pathway: Improve Transformers with Irrelevant Data from Other Modalities
January 25, 2024
저자: Yiyuan Zhang, Xiaohan Ding, Kaixiong Gong, Yixiao Ge, Ying Shan, Xiangyu Yue
cs.AI
초록
특정 모달리티의 트랜스포머를 다른 모달리티의 무관한 데이터를 활용하여 개선하는 방법을 제안한다. 예를 들어, ImageNet 모델을 오디오 또는 포인트 클라우드 데이터셋으로 개선하는 것이다. 우리의 방법은 대상 모달리티의 데이터 샘플이 다른 모달리티와 무관하다는 점에서, 다른 모달리티의 짝지어진(예: CLIP) 또는 교차된 데이터를 활용하는 기존 연구와 차별화된다. 우리는 'Multimodal Pathway'라는 방법론을 제안한다. 이는 대상 모달리티와 이를 위해 설계된 트랜스포머가 주어졌을 때, 다른 모달리티의 데이터로 훈련된 보조 트랜스포머를 사용하고 두 모델의 구성 요소를 연결하는 경로를 구성하여 대상 모달리티의 데이터가 두 모델에 의해 처리될 수 있도록 하는 것이다. 이를 통해 두 모달리티에서 얻은 트랜스포머의 보편적인 시퀀스-투-시퀀스 모델링 능력을 활용한다. 구체적인 구현으로, 우리는 일반적으로 모달리티 특화 토크나이저와 작업 특화 헤드를 사용하지만, 제안된 'Cross-Modal Re-parameterization'이라는 방법을 통해 보조 모델의 트랜스포머 블록을 활용한다. 이 방법은 추론 비용 없이 보조 모델의 가중치를 활용한다. 이미지, 포인트 클라우드, 비디오, 오디오 인식 작업에서 다른 모달리티의 무관한 데이터를 활용하여 상당하고 일관된 성능 향상을 관찰했다. 코드와 모델은 https://github.com/AILab-CVC/M2PT에서 확인할 수 있다.
English
We propose to improve transformers of a specific modality with irrelevant
data from other modalities, e.g., improve an ImageNet model with audio or point
cloud datasets. We would like to highlight that the data samples of the target
modality are irrelevant to the other modalities, which distinguishes our method
from other works utilizing paired (e.g., CLIP) or interleaved data of different
modalities. We propose a methodology named Multimodal Pathway - given a target
modality and a transformer designed for it, we use an auxiliary transformer
trained with data of another modality and construct pathways to connect
components of the two models so that data of the target modality can be
processed by both models. In this way, we utilize the universal
sequence-to-sequence modeling abilities of transformers obtained from two
modalities. As a concrete implementation, we use a modality-specific tokenizer
and task-specific head as usual but utilize the transformer blocks of the
auxiliary model via a proposed method named Cross-Modal Re-parameterization,
which exploits the auxiliary weights without any inference costs. On the image,
point cloud, video, and audio recognition tasks, we observe significant and
consistent performance improvements with irrelevant data from other modalities.
The code and models are available at https://github.com/AILab-CVC/M2PT.