Meta-Transformer: マルチモーダル学習のための統一フレームワーク
Meta-Transformer: A Unified Framework for Multimodal Learning
July 20, 2023
著者: Yiyuan Zhang, Kaixiong Gong, Kaipeng Zhang, Hongsheng Li, Yu Qiao, Wanli Ouyang, Xiangyu Yue
cs.AI
要旨
マルチモーダル学習は、複数のモダリティからの情報を処理し関連付けることができるモデルを構築することを目指しています。この分野における長年の進展にもかかわらず、自然言語、2D画像、3D点群、音声、動画、時系列データ、表形式データなど、さまざまなモダリティを処理するための統一ネットワークを設計することは、それらの間に存在する本質的なギャップのため、依然として困難な課題です。本研究では、ペア付けされたマルチモーダル学習データを必要とせず、凍結されたエンコーダを活用してマルチモーダル知覚を実現するフレームワーク「Meta-Transformer」を提案します。Meta-Transformerでは、さまざまなモダリティからの生の入力データが共有トークン空間にマッピングされ、その後、凍結されたパラメータを持つエンコーダが入力データの高レベルな意味的特徴を抽出します。統一データトークナイザ、モダリティ共有エンコーダ、下流タスク向けのタスク固有ヘッドという3つの主要コンポーネントで構成されるMeta-Transformerは、ペア付けされていないデータを用いて12のモダリティにわたる統一学習を実現する初のフレームワークです。さまざまなベンチマークでの実験により、Meta-Transformerが基本的な知覚(テキスト、画像、点群、音声、動画)、実用的な応用(X線、赤外線、ハイパースペクトル、IMU)、およびデータマイニング(グラフ、表形式、時系列)を含む幅広いタスクを処理できることが明らかになりました。Meta-Transformerは、トランスフォーマーを用いた統一マルチモーダル知能の開発に向けた有望な未来を示しています。コードはhttps://github.com/invictus717/MetaTransformerで公開予定です。
English
Multimodal learning aims to build models that can process and relate
information from multiple modalities. Despite years of development in this
field, it still remains challenging to design a unified network for processing
various modalities (e.g. natural language, 2D images, 3D point
clouds, audio, video, time series, tabular data) due to the inherent gaps among
them. In this work, we propose a framework, named Meta-Transformer, that
leverages a frozen encoder to perform multimodal perception without
any paired multimodal training data. In Meta-Transformer, the raw input data
from various modalities are mapped into a shared token space, allowing a
subsequent encoder with frozen parameters to extract high-level semantic
features of the input data. Composed of three main components: a unified data
tokenizer, a modality-shared encoder, and task-specific heads for downstream
tasks, Meta-Transformer is the first framework to perform unified learning
across 12 modalities with unpaired data. Experiments on different benchmarks
reveal that Meta-Transformer can handle a wide range of tasks including
fundamental perception (text, image, point cloud, audio, video), practical
application (X-Ray, infrared, hyperspectral, and IMU), and data mining (graph,
tabular, and time-series). Meta-Transformer indicates a promising future for
developing unified multimodal intelligence with transformers. Code will be
available at https://github.com/invictus717/MetaTransformer