Meta-Transformer: Un Framework Unificato per l'Apprendimento Multimodale
Meta-Transformer: A Unified Framework for Multimodal Learning
July 20, 2023
Autori: Yiyuan Zhang, Kaixiong Gong, Kaipeng Zhang, Hongsheng Li, Yu Qiao, Wanli Ouyang, Xiangyu Yue
cs.AI
Abstract
L'apprendimento multimodale mira a costruire modelli in grado di elaborare e mettere in relazione informazioni provenienti da molteplici modalità. Nonostante anni di sviluppo in questo campo, rimane ancora una sfida progettare una rete unificata per elaborare varie modalità (ad esempio, linguaggio naturale, immagini 2D, nuvole di punti 3D, audio, video, serie temporali, dati tabellari) a causa delle lacune intrinseche tra di esse. In questo lavoro, proponiamo un framework, denominato Meta-Transformer, che sfrutta un encoder congelato per eseguire la percezione multimodale senza alcun dato di addestramento multimodale accoppiato. In Meta-Transformer, i dati grezzi in ingresso provenienti da varie modalità vengono mappati in uno spazio di token condiviso, consentendo a un encoder successivo con parametri congelati di estrarre caratteristiche semantiche di alto livello dei dati in ingresso. Composto da tre componenti principali: un tokenizer di dati unificato, un encoder condiviso tra le modalità e teste specifiche per i compiti a valle, Meta-Transformer è il primo framework a eseguire un apprendimento unificato su 12 modalità con dati non accoppiati. Esperimenti su diversi benchmark rivelano che Meta-Transformer può gestire un'ampia gamma di compiti, tra cui percezione fondamentale (testo, immagine, nuvola di punti, audio, video), applicazione pratica (raggi X, infrarossi, iperspettrali e IMU) e data mining (grafi, tabellari e serie temporali). Meta-Transformer indica un futuro promettente per lo sviluppo di un'intelligenza multimodale unificata con i transformer. Il codice sarà disponibile all'indirizzo https://github.com/invictus717/MetaTransformer.
English
Multimodal learning aims to build models that can process and relate
information from multiple modalities. Despite years of development in this
field, it still remains challenging to design a unified network for processing
various modalities (e.g. natural language, 2D images, 3D point
clouds, audio, video, time series, tabular data) due to the inherent gaps among
them. In this work, we propose a framework, named Meta-Transformer, that
leverages a frozen encoder to perform multimodal perception without
any paired multimodal training data. In Meta-Transformer, the raw input data
from various modalities are mapped into a shared token space, allowing a
subsequent encoder with frozen parameters to extract high-level semantic
features of the input data. Composed of three main components: a unified data
tokenizer, a modality-shared encoder, and task-specific heads for downstream
tasks, Meta-Transformer is the first framework to perform unified learning
across 12 modalities with unpaired data. Experiments on different benchmarks
reveal that Meta-Transformer can handle a wide range of tasks including
fundamental perception (text, image, point cloud, audio, video), practical
application (X-Ray, infrared, hyperspectral, and IMU), and data mining (graph,
tabular, and time-series). Meta-Transformer indicates a promising future for
developing unified multimodal intelligence with transformers. Code will be
available at https://github.com/invictus717/MetaTransformer