マルチモーダルパスウェイ:他のモダリティからの無関係なデータを用いたトランスフォーマーの改善
Multimodal Pathway: Improve Transformers with Irrelevant Data from Other Modalities
January 25, 2024
著者: Yiyuan Zhang, Xiaohan Ding, Kaixiong Gong, Yixiao Ge, Ying Shan, Xiangyu Yue
cs.AI
要旨
特定のモダリティのトランスフォーマーを、他のモダリティの無関係なデータで改善することを提案します。例えば、ImageNetモデルを音声やポイントクラウドのデータセットで改善することを考えます。ここで注目すべきは、ターゲットモダリティのデータサンプルが他のモダリティと無関係である点であり、これが我々の手法を、ペアデータ(例:CLIP)や異なるモダリティのインターリーブデータを利用する他の研究と区別します。我々は「Multimodal Pathway」という方法論を提案します。具体的には、ターゲットモダリティとそれ用に設計されたトランスフォーマーが与えられた場合、別のモダリティのデータで訓練された補助トランスフォーマーを使用し、2つのモデルのコンポーネントを接続するパスウェイを構築します。これにより、ターゲットモダリティのデータを両方のモデルで処理できるようにします。この方法で、2つのモダリティから得られたトランスフォーマーの普遍的なシーケンス間モデリング能力を活用します。具体的な実装として、通常通りモダリティ固有のトークナイザーとタスク固有のヘッドを使用しますが、提案する「Cross-Modal Re-parameterization」という方法を通じて補助モデルのトランスフォーマーブロックを利用します。この方法は、推論コストを一切増やすことなく補助モデルの重みを活用します。画像、ポイントクラウド、ビデオ、音声認識タスクにおいて、他のモダリティの無関係なデータを使用することで、顕著かつ一貫した性能向上が観察されました。コードとモデルはhttps://github.com/AILab-CVC/M2PTで公開されています。
English
We propose to improve transformers of a specific modality with irrelevant
data from other modalities, e.g., improve an ImageNet model with audio or point
cloud datasets. We would like to highlight that the data samples of the target
modality are irrelevant to the other modalities, which distinguishes our method
from other works utilizing paired (e.g., CLIP) or interleaved data of different
modalities. We propose a methodology named Multimodal Pathway - given a target
modality and a transformer designed for it, we use an auxiliary transformer
trained with data of another modality and construct pathways to connect
components of the two models so that data of the target modality can be
processed by both models. In this way, we utilize the universal
sequence-to-sequence modeling abilities of transformers obtained from two
modalities. As a concrete implementation, we use a modality-specific tokenizer
and task-specific head as usual but utilize the transformer blocks of the
auxiliary model via a proposed method named Cross-Modal Re-parameterization,
which exploits the auxiliary weights without any inference costs. On the image,
point cloud, video, and audio recognition tasks, we observe significant and
consistent performance improvements with irrelevant data from other modalities.
The code and models are available at https://github.com/AILab-CVC/M2PT.