MolmoとPixMo:最先端のマルチモーダルモデルのためのオープンウェイトとオープンデータ
Molmo and PixMo: Open Weights and Open Data for State-of-the-Art Multimodal Models
September 25, 2024
著者: Matt Deitke, Christopher Clark, Sangho Lee, Rohun Tripathi, Yue Yang, Jae Sung Park, Mohammadreza Salehi, Niklas Muennighoff, Kyle Lo, Luca Soldaini, Jiasen Lu, Taira Anderson, Erin Bransom, Kiana Ehsani, Huong Ngo, YenSung Chen, Ajay Patel, Mark Yatskar, Chris Callison-Burch, Andrew Head, Rose Hendrix, Favyen Bastani, Eli VanderBilt, Nathan Lambert, Yvonne Chou, Arnavi Chheda, Jenna Sparks, Sam Skjonsberg, Michael Schmitz, Aaron Sarnat, Byron Bischoff, Pete Walsh, Chris Newell, Piper Wolters, Tanmay Gupta, Kuo-Hao Zeng, Jon Borchardt, Dirk Groeneveld, Jen Dumas, Crystal Nam, Sophie Lebrecht, Caitlin Wittlif, Carissa Schoenick, Oscar Michel, Ranjay Krishna, Luca Weihs, Noah A. Smith, Hannaneh Hajishirzi, Ross Girshick, Ali Farhadi, Aniruddha Kembhavi
cs.AI
要旨
現在、最も先進的なマルチモーダルモデルはプロプライエタリなものが残っています。最も強力なオープンウェイトモデルは、良好なパフォーマンスを実現するために、プロプライエタリなVLMからの合成データに大きく依存しており、これらのクローズドモデルをオープンに蒸留しています。その結果、コミュニティは、パフォーマンスの高いVLMをゼロから構築する方法に関する基本的な知識がまだ不足しています。私たちは、Molmoという新しいVLMファミリーを紹介します。このファミリーは、そのオープン性のクラスで最先端のものです。私たちの主要な革新点は、音声に基づいた説明を使用して完全に人間の注釈者から収集された画像キャプションの新しい、非常に詳細なデータセットです。さまざまなユーザーインタラクションを可能にするために、我々はまた、ファインチューニング用に、野生のQ&Aや革新的な2Dポイントデータを含む多様なデータセットの組み合わせを導入しています。私たちのアプローチの成功は、モデルアーキテクチャの詳細な選択肢、適切に調整されたトレーニングパイプライン、そして何よりも、新しく収集されたデータセットの品質に依存しており、これらはすべて公開されます。Molmoファミリー内の最高クラスの72Bモデルは、オープンウェイトおよびデータモデルのクラスで他を凌駕するだけでなく、GPT-4o、Claude 3.5、Gemini 1.5などのプロプライエタリシステムとも、学術的ベンチマークや人間の評価の両方で有利な比較を示しています。
私たちは、近日中にすべてのモデルの重み、キャプションおよびファインチューニングデータ、ソースコードを公開します。一部のモデルの重み、推論コード、デモは、https://molmo.allenai.org で利用可能です。
English
Today's most advanced multimodal models remain proprietary. The strongest
open-weight models rely heavily on synthetic data from proprietary VLMs to
achieve good performance, effectively distilling these closed models into open
ones. As a result, the community is still missing foundational knowledge about
how to build performant VLMs from scratch. We present Molmo, a new family of
VLMs that are state-of-the-art in their class of openness. Our key innovation
is a novel, highly detailed image caption dataset collected entirely from human
annotators using speech-based descriptions. To enable a wide array of user
interactions, we also introduce a diverse dataset mixture for fine-tuning that
includes in-the-wild Q&A and innovative 2D pointing data. The success of our
approach relies on careful choices for the model architecture details, a
well-tuned training pipeline, and, most critically, the quality of our newly
collected datasets, all of which will be released. The best-in-class 72B model
within the Molmo family not only outperforms others in the class of open weight
and data models but also compares favorably against proprietary systems like
GPT-4o, Claude 3.5, and Gemini 1.5 on both academic benchmarks and human
evaluation.
We will be releasing all of our model weights, captioning and fine-tuning
data, and source code in the near future. Select model weights, inference code,
and demo are available at https://molmo.allenai.org.Summary
AI-Generated Summary