Aria:一个开放的多模态本地专家混合模型Aria: An Open Multimodal Native Mixture-of-Experts Model
信息以多种形式呈现。多模态本地人工智能模型对于整合现实世界信息并提供全面理解至关重要。虽然存在专有的多模态本地模型,但它们缺乏开放性,这给采用乃至适应带来了障碍。为填补这一空白,我们介绍了 Aria,一种开放的多模态本地模型,在各种多模态、语言和编码任务中表现出色。Aria 是一种专家混合模型,每个视觉令牌和文本令牌分别具有 39 亿和 35 亿激活参数。它的性能优于 Pixtral-12B 和 Llama3.2-11B,并在各种多模态任务上与最佳专有模型竞争。我们从头开始预训练 Aria,采用 4 阶段流水线,逐步赋予模型在语言理解、多模态理解、长上下文窗口和遵循指令等方面强大能力。我们开源模型权重,并提供一个代码库,便于在现实应用中轻松采用和适应 Aria。