아리아: 오픈 멀티모달 네이티브 전문가 모델Aria: An Open Multimodal Native Mixture-of-Experts Model
정보는 다양한 형태로 제공됩니다. 다중 모달 네이티브 AI 모델은 현실 세계 정보를 통합하고 포괄적인 이해를 제공하는 데 중요합니다. 전용 다중 모달 네이티브 모델은 존재하지만 그들의 개방성 부족으로 인해 채택이나 적응이 어려움을 겪습니다. 이 공백을 채우기 위해 우리는 Aria를 소개합니다. Aria는 다양한 다중 모달, 언어 및 코딩 작업에서 최고 수준의 성능을 보여주는 오픈 소스 다중 모달 네이티브 모델입니다. Aria는 시각 토큰 당 3.9B 및 텍스트 토큰 당 3.5B의 활성화된 매개변수를 가진 전문가 모델 혼합체입니다. 이 모델은 Pixtral-12B 및 Llama3.2-11B를 능가하며 다양한 다중 모달 작업에서 최고의 전용 모델과 경쟁력을 갖추고 있습니다. 우리는 4단계 파이프라인을 따라 Aria를 처음부터 사전 훈련시키며, 이는 언어 이해, 다중 모달 이해, 긴 컨텍스트 창 및 지시 따르기에 강력한 능력을 부여합니다. 우리는 이 모델 가중치를 오픈 소스로 공개하고, 실제 응용 프로그램에서 Aria의 쉬운 채택과 적응을 용이하게 하는 코드베이스를 제공합니다.