Meta-Transformer: Ein einheitliches Framework für multimodales Lernen
Meta-Transformer: A Unified Framework for Multimodal Learning
July 20, 2023
Autoren: Yiyuan Zhang, Kaixiong Gong, Kaipeng Zhang, Hongsheng Li, Yu Qiao, Wanli Ouyang, Xiangyu Yue
cs.AI
Zusammenfassung
Multimodales Lernen zielt darauf ab, Modelle zu entwickeln, die Informationen aus mehreren Modalitäten verarbeiten und in Beziehung setzen können. Trotz jahrelanger Entwicklungen in diesem Bereich bleibt es nach wie vor eine Herausforderung, ein einheitliches Netzwerk für die Verarbeitung verschiedener Modalitäten (z. B. natürliche Sprache, 2D-Bilder, 3D-Punktwolken, Audio, Video, Zeitreihen, tabellarische Daten) zu entwerfen, da es inhärente Unterschiede zwischen ihnen gibt. In dieser Arbeit schlagen wir ein Framework namens Meta-Transformer vor, das einen eingefrorenen Encoder nutzt, um multimodale Wahrnehmung ohne gepaarte multimodale Trainingsdaten durchzuführen. In Meta-Transformer werden die Rohdaten aus verschiedenen Modalitäten in einen gemeinsamen Token-Raum abgebildet, wodurch ein nachgeschalteter Encoder mit eingefrorenen Parametern in der Lage ist, hochwertige semantische Merkmale der Eingabedaten zu extrahieren. Meta-Transformer besteht aus drei Hauptkomponenten: einem einheitlichen Daten-Tokenizer, einem modalitätsübergreifenden Encoder und aufgaben-spezifischen Heads für nachgelagerte Aufgaben. Es ist das erste Framework, das einheitliches Lernen über 12 Modalitäten mit ungepaarten Daten durchführt. Experimente auf verschiedenen Benchmarks zeigen, dass Meta-Transformer eine breite Palette von Aufgaben bewältigen kann, darunter grundlegende Wahrnehmung (Text, Bild, Punktwolke, Audio, Video), praktische Anwendungen (Röntgen, Infrarot, hyperspektral und IMU) und Data Mining (Graph, tabellarisch und Zeitreihen). Meta-Transformer deutet auf eine vielversprechende Zukunft hin, um einheitliche multimodale Intelligenz mit Transformern zu entwickeln. Der Code wird unter https://github.com/invictus717/MetaTransformer verfügbar sein.
English
Multimodal learning aims to build models that can process and relate
information from multiple modalities. Despite years of development in this
field, it still remains challenging to design a unified network for processing
various modalities (e.g. natural language, 2D images, 3D point
clouds, audio, video, time series, tabular data) due to the inherent gaps among
them. In this work, we propose a framework, named Meta-Transformer, that
leverages a frozen encoder to perform multimodal perception without
any paired multimodal training data. In Meta-Transformer, the raw input data
from various modalities are mapped into a shared token space, allowing a
subsequent encoder with frozen parameters to extract high-level semantic
features of the input data. Composed of three main components: a unified data
tokenizer, a modality-shared encoder, and task-specific heads for downstream
tasks, Meta-Transformer is the first framework to perform unified learning
across 12 modalities with unpaired data. Experiments on different benchmarks
reveal that Meta-Transformer can handle a wide range of tasks including
fundamental perception (text, image, point cloud, audio, video), practical
application (X-Ray, infrared, hyperspectral, and IMU), and data mining (graph,
tabular, and time-series). Meta-Transformer indicates a promising future for
developing unified multimodal intelligence with transformers. Code will be
available at https://github.com/invictus717/MetaTransformer