Meta-Transformer : Un Cadre Unifié pour l'Apprentissage Multimodal
Meta-Transformer: A Unified Framework for Multimodal Learning
July 20, 2023
Auteurs: Yiyuan Zhang, Kaixiong Gong, Kaipeng Zhang, Hongsheng Li, Yu Qiao, Wanli Ouyang, Xiangyu Yue
cs.AI
Résumé
L'apprentissage multimodal vise à construire des modèles capables de traiter et de relier des informations provenant de multiples modalités. Malgré des années de développement dans ce domaine, il reste difficile de concevoir un réseau unifié pour traiter diverses modalités (par exemple, le langage naturel, les images 2D, les nuages de points 3D, l'audio, la vidéo, les séries temporelles, les données tabulaires) en raison des écarts inhérents entre elles. Dans ce travail, nous proposons un cadre, nommé Meta-Transformer, qui exploite un encodeur figé pour effectuer une perception multimodale sans aucune donnée d'entraînement multimodale appariée. Dans Meta-Transformer, les données brutes en entrée provenant de diverses modalités sont mappées dans un espace de tokens partagé, permettant à un encodeur ultérieur avec des paramètres figés d'extraire des caractéristiques sémantiques de haut niveau des données d'entrée. Composé de trois éléments principaux : un tokeniseur de données unifié, un encodeur partagé entre les modalités, et des têtes spécifiques aux tâches pour les tâches en aval, Meta-Transformer est le premier cadre à effectuer un apprentissage unifié sur 12 modalités avec des données non appariées. Les expériences sur différents benchmarks révèlent que Meta-Transformer peut gérer un large éventail de tâches incluant la perception fondamentale (texte, image, nuage de points, audio, vidéo), l'application pratique (rayons X, infrarouge, hyperspectral, et IMU), et l'exploration de données (graphe, tabulaire, et série temporelle). Meta-Transformer indique un avenir prometteur pour le développement d'une intelligence multimodale unifiée avec les transformers. Le code sera disponible à l'adresse https://github.com/invictus717/MetaTransformer.
English
Multimodal learning aims to build models that can process and relate
information from multiple modalities. Despite years of development in this
field, it still remains challenging to design a unified network for processing
various modalities (e.g. natural language, 2D images, 3D point
clouds, audio, video, time series, tabular data) due to the inherent gaps among
them. In this work, we propose a framework, named Meta-Transformer, that
leverages a frozen encoder to perform multimodal perception without
any paired multimodal training data. In Meta-Transformer, the raw input data
from various modalities are mapped into a shared token space, allowing a
subsequent encoder with frozen parameters to extract high-level semantic
features of the input data. Composed of three main components: a unified data
tokenizer, a modality-shared encoder, and task-specific heads for downstream
tasks, Meta-Transformer is the first framework to perform unified learning
across 12 modalities with unpaired data. Experiments on different benchmarks
reveal that Meta-Transformer can handle a wide range of tasks including
fundamental perception (text, image, point cloud, audio, video), practical
application (X-Ray, infrared, hyperspectral, and IMU), and data mining (graph,
tabular, and time-series). Meta-Transformer indicates a promising future for
developing unified multimodal intelligence with transformers. Code will be
available at https://github.com/invictus717/MetaTransformer