ChatPaper.aiChatPaper

대규모 범모달 프리트레이닝의 한계 탐구

Explore the Limits of Omni-modal Pretraining at Scale

June 13, 2024
저자: Yiyuan Zhang, Handong Li, Jing Liu, Xiangyu Yue
cs.AI

초록

우리는 모든 모달리티를 이해하고 보편적 표현을 학습할 수 있는 오므니모달(omni-modal) 인공지능을 구축하고자 제안한다. 구체적으로, 우리는 Multimodal Context(MiCo)라는 확장 가능한 사전 학습 패러다임을 제안하는데, 이는 사전 학습 과정에서 모달리티의 수와 데이터 양, 그리고 모델 파라미터를 함께 확장할 수 있다. MiCo를 통해 사전 학습된 모델들은 멀티모달 학습에서 상당한 창발적 능력을 보여주며, 이는 다음 작업들에서 평가되었다: i) 10가지 서로 다른 모달리티에 대한 단일 모달리티 인식 벤치마크, ii) 검색, 질의응답, 캡셔닝 등 25개의 교차 모달리티 이해 작업, 그리고 iii) 18개의 멀티모달 대형 언어 모델 벤치마크. 우리의 모델들은 최첨단 성능을 위한 37개의 새로운 기록을 수립했다. 우리의 연구가 오므니모달 인공지능의 발전에 기여할 수 있기를 바란다. 코드와 모델은 https://github.com/invictus717/MiCo에서 확인할 수 있다.
English
We propose to build omni-modal intelligence, which is capable of understanding any modality and learning universal representations. In specific, we propose a scalable pretraining paradigm, named Multimodal Context (MiCo), which can scale up the numbers of modalities and amount of data, together with the model parameters, in the pretraining process. With MiCo, the pretrained models show significant emergent abilities in multimodal learning, which are evaluated on the following tasks: i) single-modality perception benchmarks of 10 different modalities, ii) 25 cross-modality understanding tasks of retrieval, question-answering, captioning, and iii) 18 multimodal large language model benchmarks. Our models establish 37 new records for state-of-the-art performance. We hope that our research could contribute to the development of omni-modal intelligence. Code and Models are at https://github.com/invictus717/MiCo

Summary

AI-Generated Summary

PDF113December 6, 2024