MolmoとPixMo:最先端のマルチモーダルモデルのためのオープンウェイトとオープンデータMolmo and PixMo: Open Weights and Open Data for State-of-the-Art
Multimodal Models
現在、最も先進的なマルチモーダルモデルはプロプライエタリなものが残っています。最も強力なオープンウェイトモデルは、良好なパフォーマンスを実現するために、プロプライエタリなVLMからの合成データに大きく依存しており、これらのクローズドモデルをオープンに蒸留しています。その結果、コミュニティは、パフォーマンスの高いVLMをゼロから構築する方法に関する基本的な知識がまだ不足しています。私たちは、Molmoという新しいVLMファミリーを紹介します。このファミリーは、そのオープン性のクラスで最先端のものです。私たちの主要な革新点は、音声に基づいた説明を使用して完全に人間の注釈者から収集された画像キャプションの新しい、非常に詳細なデータセットです。さまざまなユーザーインタラクションを可能にするために、我々はまた、ファインチューニング用に、野生のQ&Aや革新的な2Dポイントデータを含む多様なデータセットの組み合わせを導入しています。私たちのアプローチの成功は、モデルアーキテクチャの詳細な選択肢、適切に調整されたトレーニングパイプライン、そして何よりも、新しく収集されたデータセットの品質に依存しており、これらはすべて公開されます。Molmoファミリー内の最高クラスの72Bモデルは、オープンウェイトおよびデータモデルのクラスで他を凌駕するだけでなく、GPT-4o、Claude 3.5、Gemini 1.5などのプロプライエタリシステムとも、学術的ベンチマークや人間の評価の両方で有利な比較を示しています。 私たちは、近日中にすべてのモデルの重み、キャプションおよびファインチューニングデータ、ソースコードを公開します。一部のモデルの重み、推論コード、デモは、https://molmo.allenai.org で利用可能です。