Molmo 和 PixMo:開放權重和開放數據用於最先進的多模態模型Molmo and PixMo: Open Weights and Open Data for State-of-the-Art
Multimodal Models
目前最先進的多模型仍然是專有的。最強大的開放權重模型主要依賴來自專有 VLM 的合成數據以達到良好性能,有效地將這些封閉模型提煉為開放模型。因此,社群仍然缺乏如何從頭開始構建高性能 VLM 的基礎知識。我們提出了 Molmo,這是一個在其開放性類別中處於最前沿的新型 VLM 系列。我們的關鍵創新是通過語音描述完全由人類標註者收集的一個新穎、高度詳細的圖像標題數據集。為了實現各種用戶互動,我們還引入了一個包含野外問答和創新的 2D 指向數據的多樣數據集混合進行微調。我們方法的成功取決於對模型架構細節的慎重選擇、良好調校的訓練流程,以及最為關鍵的是我們新收集的數據集的質量,所有這些將被釋出。Molmo 系列中的最佳 72B 模型不僅在開放權重和數據模型類別中優於其他模型,還在學術基準和人類評估中與像 GPT-4o、Claude 3.5 和 Gemini 1.5 這樣的專有系統相比表現出色。 我們將在不久的將來釋出所有模型權重、標題和微調數據,以及源代碼。可在 https://molmo.allenai.org 獲取部分模型權重、推理代碼和演示。