아리아: 오픈 멀티모달 네이티브 전문가 모델
Aria: An Open Multimodal Native Mixture-of-Experts Model
October 8, 2024
저자: Dongxu Li, Yudong Liu, Haoning Wu, Yue Wang, Zhiqi Shen, Bowen Qu, Xinyao Niu, Guoyin Wang, Bei Chen, Junnan Li
cs.AI
초록
정보는 다양한 형태로 제공됩니다. 다중 모달 네이티브 AI 모델은 현실 세계 정보를 통합하고 포괄적인 이해를 제공하는 데 중요합니다. 전용 다중 모달 네이티브 모델은 존재하지만 그들의 개방성 부족으로 인해 채택이나 적응이 어려움을 겪습니다. 이 공백을 채우기 위해 우리는 Aria를 소개합니다. Aria는 다양한 다중 모달, 언어 및 코딩 작업에서 최고 수준의 성능을 보여주는 오픈 소스 다중 모달 네이티브 모델입니다. Aria는 시각 토큰 당 3.9B 및 텍스트 토큰 당 3.5B의 활성화된 매개변수를 가진 전문가 모델 혼합체입니다. 이 모델은 Pixtral-12B 및 Llama3.2-11B를 능가하며 다양한 다중 모달 작업에서 최고의 전용 모델과 경쟁력을 갖추고 있습니다. 우리는 4단계 파이프라인을 따라 Aria를 처음부터 사전 훈련시키며, 이는 언어 이해, 다중 모달 이해, 긴 컨텍스트 창 및 지시 따르기에 강력한 능력을 부여합니다. 우리는 이 모델 가중치를 오픈 소스로 공개하고, 실제 응용 프로그램에서 Aria의 쉬운 채택과 적응을 용이하게 하는 코드베이스를 제공합니다.
English
Information comes in diverse modalities. Multimodal native AI models are
essential to integrate real-world information and deliver comprehensive
understanding. While proprietary multimodal native models exist, their lack of
openness imposes obstacles for adoptions, let alone adaptations. To fill this
gap, we introduce Aria, an open multimodal native model with best-in-class
performance across a wide range of multimodal, language, and coding tasks. Aria
is a mixture-of-expert model with 3.9B and 3.5B activated parameters per visual
token and text token, respectively. It outperforms Pixtral-12B and
Llama3.2-11B, and is competitive against the best proprietary models on various
multimodal tasks. We pre-train Aria from scratch following a 4-stage pipeline,
which progressively equips the model with strong capabilities in language
understanding, multimodal understanding, long context window, and instruction
following. We open-source the model weights along with a codebase that
facilitates easy adoptions and adaptations of Aria in real-world applications.Summary
AI-Generated Summary