Meta-Transformer: Унифицированная структура для мультимодального обучения
Meta-Transformer: A Unified Framework for Multimodal Learning
July 20, 2023
Авторы: Yiyuan Zhang, Kaixiong Gong, Kaipeng Zhang, Hongsheng Li, Yu Qiao, Wanli Ouyang, Xiangyu Yue
cs.AI
Аннотация
Мультимодальное обучение направлено на создание моделей, способных обрабатывать и связывать информацию из нескольких модальностей. Несмотря на многолетнее развитие в этой области, проектирование унифицированной сети для обработки различных модальностей (например, естественного языка, 2D-изображений, 3D-точечных облаков, аудио, видео, временных рядов, табличных данных) остается сложной задачей из-за присущих им различий. В данной работе мы предлагаем фреймворк под названием Meta-Transformer, который использует замороженный кодировщик для выполнения мультимодального восприятия без каких-либо парных мультимодальных обучающих данных. В Meta-Transformer исходные данные из различных модальностей преобразуются в общее токен-пространство, что позволяет последующему кодировщику с замороженными параметрами извлекать высокоуровневые семантические признаки входных данных. Состоящий из трех основных компонентов: унифицированного токенизатора данных, кодировщика, общего для всех модальностей, и специализированных голов для задач, Meta-Transformer является первым фреймворком, выполняющим унифицированное обучение для 12 модальностей с использованием непарных данных. Эксперименты на различных бенчмарках показывают, что Meta-Transformer способен справляться с широким спектром задач, включая базовое восприятие (текст, изображения, точечные облака, аудио, видео), практическое применение (рентген, инфракрасное излучение, гиперспектральные данные и IMU) и анализ данных (графы, табличные данные и временные ряды). Meta-Transformer указывает на перспективное будущее для разработки унифицированного мультимодального интеллекта с использованием трансформеров. Код будет доступен по адресу https://github.com/invictus717/MetaTransformer.
English
Multimodal learning aims to build models that can process and relate
information from multiple modalities. Despite years of development in this
field, it still remains challenging to design a unified network for processing
various modalities (e.g. natural language, 2D images, 3D point
clouds, audio, video, time series, tabular data) due to the inherent gaps among
them. In this work, we propose a framework, named Meta-Transformer, that
leverages a frozen encoder to perform multimodal perception without
any paired multimodal training data. In Meta-Transformer, the raw input data
from various modalities are mapped into a shared token space, allowing a
subsequent encoder with frozen parameters to extract high-level semantic
features of the input data. Composed of three main components: a unified data
tokenizer, a modality-shared encoder, and task-specific heads for downstream
tasks, Meta-Transformer is the first framework to perform unified learning
across 12 modalities with unpaired data. Experiments on different benchmarks
reveal that Meta-Transformer can handle a wide range of tasks including
fundamental perception (text, image, point cloud, audio, video), practical
application (X-Ray, infrared, hyperspectral, and IMU), and data mining (graph,
tabular, and time-series). Meta-Transformer indicates a promising future for
developing unified multimodal intelligence with transformers. Code will be
available at https://github.com/invictus717/MetaTransformer