Meta-Transformer : Un Cadre Unifié pour l'Apprentissage Multimodal

Résumé

L'apprentissage multimodal vise à construire des modèles capables de traiter et de relier des informations provenant de multiples modalités. Malgré des années de développement dans ce domaine, il reste difficile de concevoir un réseau unifié pour traiter diverses modalités (par exemple, le langage naturel, les images 2D, les nuages de points 3D, l'audio, la vidéo, les séries temporelles, les données tabulaires) en raison des écarts inhérents entre elles. Dans ce travail, nous proposons un cadre, nommé Meta-Transformer, qui exploite un encodeur figé pour effectuer une perception multimodale sans aucune donnée d'entraînement multimodale appariée. Dans Meta-Transformer, les données brutes en entrée provenant de diverses modalités sont mappées dans un espace de tokens partagé, permettant à un encodeur ultérieur avec des paramètres figés d'extraire des caractéristiques sémantiques de haut niveau des données d'entrée. Composé de trois éléments principaux : un tokeniseur de données unifié, un encodeur partagé entre les modalités, et des têtes spécifiques aux tâches pour les tâches en aval, Meta-Transformer est le premier cadre à effectuer un apprentissage unifié sur 12 modalités avec des données non appariées. Les expériences sur différents benchmarks révèlent que Meta-Transformer peut gérer un large éventail de tâches incluant la perception fondamentale (texte, image, nuage de points, audio, vidéo), l'application pratique (rayons X, infrarouge, hyperspectral, et IMU), et l'exploration de données (graphe, tabulaire, et série temporelle). Meta-Transformer indique un avenir prometteur pour le développement d'une intelligence multimodale unifiée avec les transformers. Le code sera disponible à l'adresse https://github.com/invictus717/MetaTransformer.

English

Multimodal learning aims to build models that can process and relate information from multiple modalities. Despite years of development in this field, it still remains challenging to design a unified network for processing various modalities (e.g. natural language, 2D images, 3D point clouds, audio, video, time series, tabular data) due to the inherent gaps among them. In this work, we propose a framework, named Meta-Transformer, that leverages a frozen encoder to perform multimodal perception without any paired multimodal training data. In Meta-Transformer, the raw input data from various modalities are mapped into a shared token space, allowing a subsequent encoder with frozen parameters to extract high-level semantic features of the input data. Composed of three main components: a unified data tokenizer, a modality-shared encoder, and task-specific heads for downstream tasks, Meta-Transformer is the first framework to perform unified learning across 12 modalities with unpaired data. Experiments on different benchmarks reveal that Meta-Transformer can handle a wide range of tasks including fundamental perception (text, image, point cloud, audio, video), practical application (X-Ray, infrared, hyperspectral, and IMU), and data mining (graph, tabular, and time-series). Meta-Transformer indicates a promising future for developing unified multimodal intelligence with transformers. Code will be available at https://github.com/invictus717/MetaTransformer

Meta-Transformer : Un Cadre Unifié pour l'Apprentissage Multimodal

Meta-Transformer: A Unified Framework for Multimodal Learning

Résumé

Support