Aria:一個開放的多模態本地專家混合模型Aria: An Open Multimodal Native Mixture-of-Experts Model
資訊以多樣的形式呈現。多模態本地人工智慧模型對於整合現實世界資訊並提供全面理解至關重要。儘管存在專有的多模態本地模型,但其缺乏開放性對於採用甚至適應都帶來障礙。為填補這一空白,我們介紹了 Aria,一個在各種多模態、語言和編碼任務中表現優異的開放式多模態本地模型。Aria 是一個專家混合模型,每個視覺標記和文本標記分別具有 39 億和 35 億個啟動參數。它優於 Pixtral-12B 和 Llama3.2-11B,並在各種多模態任務上與最佳專有模型競爭。我們從頭開始預訓練 Aria,採用 4 階段流程,逐步賦予模型在語言理解、多模態理解、長上下文窗口和指示遵循方面的強大能力。我們開源模型權重以及一個代碼庫,有助於在現實應用中輕鬆採用和適應 Aria。