Meta-Transformer: Un Framework Unificato per l'Apprendimento Multimodale

Abstract

L'apprendimento multimodale mira a costruire modelli in grado di elaborare e mettere in relazione informazioni provenienti da molteplici modalità. Nonostante anni di sviluppo in questo campo, rimane ancora una sfida progettare una rete unificata per elaborare varie modalità (ad esempio, linguaggio naturale, immagini 2D, nuvole di punti 3D, audio, video, serie temporali, dati tabellari) a causa delle lacune intrinseche tra di esse. In questo lavoro, proponiamo un framework, denominato Meta-Transformer, che sfrutta un encoder congelato per eseguire la percezione multimodale senza alcun dato di addestramento multimodale accoppiato. In Meta-Transformer, i dati grezzi in ingresso provenienti da varie modalità vengono mappati in uno spazio di token condiviso, consentendo a un encoder successivo con parametri congelati di estrarre caratteristiche semantiche di alto livello dei dati in ingresso. Composto da tre componenti principali: un tokenizer di dati unificato, un encoder condiviso tra le modalità e teste specifiche per i compiti a valle, Meta-Transformer è il primo framework a eseguire un apprendimento unificato su 12 modalità con dati non accoppiati. Esperimenti su diversi benchmark rivelano che Meta-Transformer può gestire un'ampia gamma di compiti, tra cui percezione fondamentale (testo, immagine, nuvola di punti, audio, video), applicazione pratica (raggi X, infrarossi, iperspettrali e IMU) e data mining (grafi, tabellari e serie temporali). Meta-Transformer indica un futuro promettente per lo sviluppo di un'intelligenza multimodale unificata con i transformer. Il codice sarà disponibile all'indirizzo https://github.com/invictus717/MetaTransformer.

English

Multimodal learning aims to build models that can process and relate information from multiple modalities. Despite years of development in this field, it still remains challenging to design a unified network for processing various modalities (e.g. natural language, 2D images, 3D point clouds, audio, video, time series, tabular data) due to the inherent gaps among them. In this work, we propose a framework, named Meta-Transformer, that leverages a frozen encoder to perform multimodal perception without any paired multimodal training data. In Meta-Transformer, the raw input data from various modalities are mapped into a shared token space, allowing a subsequent encoder with frozen parameters to extract high-level semantic features of the input data. Composed of three main components: a unified data tokenizer, a modality-shared encoder, and task-specific heads for downstream tasks, Meta-Transformer is the first framework to perform unified learning across 12 modalities with unpaired data. Experiments on different benchmarks reveal that Meta-Transformer can handle a wide range of tasks including fundamental perception (text, image, point cloud, audio, video), practical application (X-Ray, infrared, hyperspectral, and IMU), and data mining (graph, tabular, and time-series). Meta-Transformer indicates a promising future for developing unified multimodal intelligence with transformers. Code will be available at https://github.com/invictus717/MetaTransformer

Meta-Transformer: Un Framework Unificato per l'Apprendimento Multimodale

Meta-Transformer: A Unified Framework for Multimodal Learning

Abstract

Support