Meta-Transformer: Un Marco Unificado para el Aprendizaje Multimodal
Meta-Transformer: A Unified Framework for Multimodal Learning
July 20, 2023
Autores: Yiyuan Zhang, Kaixiong Gong, Kaipeng Zhang, Hongsheng Li, Yu Qiao, Wanli Ouyang, Xiangyu Yue
cs.AI
Resumen
El aprendizaje multimodal tiene como objetivo construir modelos que puedan procesar y relacionar información proveniente de múltiples modalidades. A pesar de años de desarrollo en este campo, sigue siendo un desafío diseñar una red unificada para procesar diversas modalidades (por ejemplo, lenguaje natural, imágenes 2D, nubes de puntos 3D, audio, video, series temporales, datos tabulares) debido a las brechas inherentes entre ellas. En este trabajo, proponemos un marco, denominado Meta-Transformer, que aprovecha un codificador congelado para realizar percepción multimodal sin necesidad de datos de entrenamiento multimodal emparejados. En Meta-Transformer, los datos de entrada en bruto de varias modalidades se mapean en un espacio de tokens compartido, permitiendo que un codificador posterior con parámetros congelados extraiga características semánticas de alto nivel de los datos de entrada. Compuesto por tres componentes principales: un tokenizador de datos unificado, un codificador compartido entre modalidades y cabezales específicos para tareas posteriores, Meta-Transformer es el primer marco que realiza aprendizaje unificado en 12 modalidades con datos no emparejados. Los experimentos en diferentes benchmarks revelan que Meta-Transformer puede manejar una amplia gama de tareas, incluyendo percepción fundamental (texto, imagen, nube de puntos, audio, video), aplicaciones prácticas (rayos X, infrarrojos, hiperespectrales e IMU) y minería de datos (grafos, tabulares y series temporales). Meta-Transformer indica un futuro prometedor para el desarrollo de inteligencia multimodal unificada con transformadores. El código estará disponible en https://github.com/invictus717/MetaTransformer.
English
Multimodal learning aims to build models that can process and relate
information from multiple modalities. Despite years of development in this
field, it still remains challenging to design a unified network for processing
various modalities (e.g. natural language, 2D images, 3D point
clouds, audio, video, time series, tabular data) due to the inherent gaps among
them. In this work, we propose a framework, named Meta-Transformer, that
leverages a frozen encoder to perform multimodal perception without
any paired multimodal training data. In Meta-Transformer, the raw input data
from various modalities are mapped into a shared token space, allowing a
subsequent encoder with frozen parameters to extract high-level semantic
features of the input data. Composed of three main components: a unified data
tokenizer, a modality-shared encoder, and task-specific heads for downstream
tasks, Meta-Transformer is the first framework to perform unified learning
across 12 modalities with unpaired data. Experiments on different benchmarks
reveal that Meta-Transformer can handle a wide range of tasks including
fundamental perception (text, image, point cloud, audio, video), practical
application (X-Ray, infrared, hyperspectral, and IMU), and data mining (graph,
tabular, and time-series). Meta-Transformer indicates a promising future for
developing unified multimodal intelligence with transformers. Code will be
available at https://github.com/invictus717/MetaTransformer