Meta-Transformer: Um Framework Unificado para Aprendizado Multimodal
Meta-Transformer: A Unified Framework for Multimodal Learning
July 20, 2023
Autores: Yiyuan Zhang, Kaixiong Gong, Kaipeng Zhang, Hongsheng Li, Yu Qiao, Wanli Ouyang, Xiangyu Yue
cs.AI
Resumo
A aprendizagem multimodal visa construir modelos capazes de processar e relacionar informações de múltiplas modalidades. Apesar de anos de desenvolvimento nessa área, ainda é desafiador projetar uma rede unificada para processar diversas modalidades (por exemplo, linguagem natural, imagens 2D, nuvens de pontos 3D, áudio, vídeo, séries temporais, dados tabulares) devido às lacunas inerentes entre elas. Neste trabalho, propomos um framework, denominado Meta-Transformer, que utiliza um codificador congelado para realizar percepção multimodal sem a necessidade de dados de treinamento multimodal emparelhados. No Meta-Transformer, os dados brutos de várias modalidades são mapeados em um espaço de tokens compartilhado, permitindo que um codificador subsequente com parâmetros congelados extraia características semânticas de alto nível dos dados de entrada. Composto por três componentes principais: um tokenizador de dados unificado, um codificador compartilhado entre modalidades e cabeças específicas para tarefas de downstream, o Meta-Transformer é o primeiro framework a realizar aprendizagem unificada em 12 modalidades com dados não emparelhados. Experimentos em diferentes benchmarks revelam que o Meta-Transformer pode lidar com uma ampla gama de tarefas, incluindo percepção fundamental (texto, imagem, nuvem de pontos, áudio, vídeo), aplicação prática (raio-X, infravermelho, hiperespectral e IMU) e mineração de dados (grafos, tabulares e séries temporais). O Meta-Transformer indica um futuro promissor para o desenvolvimento de inteligência multimodal unificada com transformers. O código estará disponível em https://github.com/invictus717/MetaTransformer.
English
Multimodal learning aims to build models that can process and relate
information from multiple modalities. Despite years of development in this
field, it still remains challenging to design a unified network for processing
various modalities (e.g. natural language, 2D images, 3D point
clouds, audio, video, time series, tabular data) due to the inherent gaps among
them. In this work, we propose a framework, named Meta-Transformer, that
leverages a frozen encoder to perform multimodal perception without
any paired multimodal training data. In Meta-Transformer, the raw input data
from various modalities are mapped into a shared token space, allowing a
subsequent encoder with frozen parameters to extract high-level semantic
features of the input data. Composed of three main components: a unified data
tokenizer, a modality-shared encoder, and task-specific heads for downstream
tasks, Meta-Transformer is the first framework to perform unified learning
across 12 modalities with unpaired data. Experiments on different benchmarks
reveal that Meta-Transformer can handle a wide range of tasks including
fundamental perception (text, image, point cloud, audio, video), practical
application (X-Ray, infrared, hyperspectral, and IMU), and data mining (graph,
tabular, and time-series). Meta-Transformer indicates a promising future for
developing unified multimodal intelligence with transformers. Code will be
available at https://github.com/invictus717/MetaTransformer