메타-트랜스포머: 다중모달 학습을 위한 통합 프레임워크
Meta-Transformer: A Unified Framework for Multimodal Learning
July 20, 2023
저자: Yiyuan Zhang, Kaixiong Gong, Kaipeng Zhang, Hongsheng Li, Yu Qiao, Wanli Ouyang, Xiangyu Yue
cs.AI
초록
멀티모달 학습은 여러 모달리티의 정보를 처리하고 연관시키는 모델을 구축하는 것을 목표로 합니다. 이 분야에서 수년간의 발전이 있었음에도 불구하고, 자연어, 2D 이미지, 3D 포인트 클라우드, 오디오, 비디오, 시계열 데이터, 테이블 데이터 등 다양한 모달리티를 처리하기 위한 통합 네트워크를 설계하는 것은 여전히 어려운 과제로 남아 있습니다. 이 연구에서는 Meta-Transformer라는 프레임워크를 제안합니다. 이 프레임워크는 고정된 인코더를 활용하여 어떠한 페어링된 멀티모달 학습 데이터 없이도 멀티모달 인식을 수행합니다. Meta-Transformer에서는 다양한 모달리티의 원시 입력 데이터가 공유 토큰 공간으로 매핑되며, 이어서 고정된 파라미터를 가진 인코더가 입력 데이터의 고수준 의미론적 특징을 추출합니다. 통합 데이터 토크나이저, 모달리티 공유 인코더, 그리고 다운스트림 작업을 위한 작업별 헤드로 구성된 Meta-Transformer는 페어링되지 않은 데이터를 사용하여 12가지 모달리티에 걸쳐 통합 학습을 수행하는 최초의 프레임워크입니다. 다양한 벤치마크에서의 실험 결과, Meta-Transformer는 기본적인 인식(텍스트, 이미지, 포인트 클라우드, 오디오, 비디오), 실용적인 응용(X-Ray, 적외선, 초분광, IMU), 그리고 데이터 마이닝(그래프, 테이블, 시계열 데이터)을 포함한 광범위한 작업을 처리할 수 있음을 보여줍니다. Meta-Transformer는 트랜스포머를 사용하여 통합 멀티모달 인텔리전스를 개발하는 데 있어 유망한 미래를 제시합니다. 코드는 https://github.com/invictus717/MetaTransformer에서 제공될 예정입니다.
English
Multimodal learning aims to build models that can process and relate
information from multiple modalities. Despite years of development in this
field, it still remains challenging to design a unified network for processing
various modalities (e.g. natural language, 2D images, 3D point
clouds, audio, video, time series, tabular data) due to the inherent gaps among
them. In this work, we propose a framework, named Meta-Transformer, that
leverages a frozen encoder to perform multimodal perception without
any paired multimodal training data. In Meta-Transformer, the raw input data
from various modalities are mapped into a shared token space, allowing a
subsequent encoder with frozen parameters to extract high-level semantic
features of the input data. Composed of three main components: a unified data
tokenizer, a modality-shared encoder, and task-specific heads for downstream
tasks, Meta-Transformer is the first framework to perform unified learning
across 12 modalities with unpaired data. Experiments on different benchmarks
reveal that Meta-Transformer can handle a wide range of tasks including
fundamental perception (text, image, point cloud, audio, video), practical
application (X-Ray, infrared, hyperspectral, and IMU), and data mining (graph,
tabular, and time-series). Meta-Transformer indicates a promising future for
developing unified multimodal intelligence with transformers. Code will be
available at https://github.com/invictus717/MetaTransformer