Meta-Transformer: Een Uniform Framework voor Multimodaal Leren
Meta-Transformer: A Unified Framework for Multimodal Learning
July 20, 2023
Auteurs: Yiyuan Zhang, Kaixiong Gong, Kaipeng Zhang, Hongsheng Li, Yu Qiao, Wanli Ouyang, Xiangyu Yue
cs.AI
Samenvatting
Multimodaal leren heeft als doel modellen te ontwikkelen die informatie uit meerdere modaliteiten kunnen verwerken en met elkaar in verband brengen. Ondanks jaren van ontwikkeling in dit veld blijft het een uitdaging om een uniform netwerk te ontwerpen voor het verwerken van verschillende modaliteiten (bijv. natuurlijke taal, 2D-afbeeldingen, 3D-puntenwolken, audio, video, tijdreeksen, tabelgegevens) vanwege de inherente verschillen daartussen. In dit werk stellen we een raamwerk voor, genaamd Meta-Transformer, dat gebruikmaakt van een bevroren encoder om multimodale perceptie uit te voeren zonder enige gepaarde multimodale trainingsdata. In Meta-Transformer worden de ruwe invoergegevens van verschillende modaliteiten omgezet in een gedeelde tokenruimte, waardoor een daaropvolgende encoder met bevroren parameters hoogwaardige semantische kenmerken van de invoergegevens kan extraheren. Meta-Transformer bestaat uit drie hoofdcomponenten: een uniforme datatokenizer, een modaliteitgedeelde encoder en taakspecifieke heads voor downstreamtaken. Het is het eerste raamwerk dat uniform leren over 12 modaliteiten met ongepaarde gegevens uitvoert. Experimenten op verschillende benchmarks tonen aan dat Meta-Transformer een breed scala aan taken aankan, waaronder fundamentele perceptie (tekst, afbeelding, puntenwolk, audio, video), praktische toepassingen (X-ray, infrarood, hyperspectraal en IMU) en datamining (grafiek, tabel en tijdreeks). Meta-Transformer wijst op een veelbelovende toekomst voor de ontwikkeling van uniforme multimodale intelligentie met transformers. De code zal beschikbaar zijn op https://github.com/invictus717/MetaTransformer.
English
Multimodal learning aims to build models that can process and relate
information from multiple modalities. Despite years of development in this
field, it still remains challenging to design a unified network for processing
various modalities (e.g. natural language, 2D images, 3D point
clouds, audio, video, time series, tabular data) due to the inherent gaps among
them. In this work, we propose a framework, named Meta-Transformer, that
leverages a frozen encoder to perform multimodal perception without
any paired multimodal training data. In Meta-Transformer, the raw input data
from various modalities are mapped into a shared token space, allowing a
subsequent encoder with frozen parameters to extract high-level semantic
features of the input data. Composed of three main components: a unified data
tokenizer, a modality-shared encoder, and task-specific heads for downstream
tasks, Meta-Transformer is the first framework to perform unified learning
across 12 modalities with unpaired data. Experiments on different benchmarks
reveal that Meta-Transformer can handle a wide range of tasks including
fundamental perception (text, image, point cloud, audio, video), practical
application (X-Ray, infrared, hyperspectral, and IMU), and data mining (graph,
tabular, and time-series). Meta-Transformer indicates a promising future for
developing unified multimodal intelligence with transformers. Code will be
available at https://github.com/invictus717/MetaTransformer