ChatPaper.aiChatPaper

Molmo et PixMo : Poids Ouverts et Données Ouvertes pour des Modèles Multimodaux de Pointe

Molmo and PixMo: Open Weights and Open Data for State-of-the-Art Multimodal Models

September 25, 2024
Auteurs: Matt Deitke, Christopher Clark, Sangho Lee, Rohun Tripathi, Yue Yang, Jae Sung Park, Mohammadreza Salehi, Niklas Muennighoff, Kyle Lo, Luca Soldaini, Jiasen Lu, Taira Anderson, Erin Bransom, Kiana Ehsani, Huong Ngo, YenSung Chen, Ajay Patel, Mark Yatskar, Chris Callison-Burch, Andrew Head, Rose Hendrix, Favyen Bastani, Eli VanderBilt, Nathan Lambert, Yvonne Chou, Arnavi Chheda, Jenna Sparks, Sam Skjonsberg, Michael Schmitz, Aaron Sarnat, Byron Bischoff, Pete Walsh, Chris Newell, Piper Wolters, Tanmay Gupta, Kuo-Hao Zeng, Jon Borchardt, Dirk Groeneveld, Jen Dumas, Crystal Nam, Sophie Lebrecht, Caitlin Wittlif, Carissa Schoenick, Oscar Michel, Ranjay Krishna, Luca Weihs, Noah A. Smith, Hannaneh Hajishirzi, Ross Girshick, Ali Farhadi, Aniruddha Kembhavi
cs.AI

Résumé

Les modèles multimodaux les plus avancés d'aujourd'hui restent propriétaires. Les modèles ouverts les plus performants reposent largement sur des données synthétiques provenant de VLM propriétaires pour obtenir de bonnes performances, en distillant efficacement ces modèles fermés en modèles ouverts. En conséquence, la communauté manque toujours de connaissances fondamentales sur la manière de construire des VLM performants à partir de zéro. Nous présentons Molmo, une nouvelle famille de VLM qui sont à la pointe de leur classe en termes d'ouverture. Notre innovation clé est un ensemble de données de légendes d'images novateur et très détaillé, collecté entièrement par des annotateurs humains à l'aide de descriptions basées sur la parole. Pour permettre une large gamme d'interactions utilisateur, nous introduisons également un mélange diversifié d'ensembles de données pour le fine-tuning qui inclut des questions-réponses en conditions réelles et des données de pointage 2D innovantes. Le succès de notre approche repose sur des choix soigneux pour les détails de l'architecture du modèle, un pipeline d'entraînement bien réglé et, surtout, la qualité de nos ensembles de données nouvellement collectés, qui seront tous publiés. Le modèle 72B de pointe au sein de la famille Molmo surpasse non seulement les autres dans la classe des modèles ouverts en termes de poids et de données, mais se compare également favorablement aux systèmes propriétaires tels que GPT-4o, Claude 3.5 et Gemini 1.5 à la fois sur des benchmarks académiques et des évaluations humaines. Nous publierons bientôt tous nos poids de modèle, nos données de légendage et de fine-tuning, ainsi que notre code source. Certains poids de modèle, du code d'inférence et une démo sont disponibles sur https://molmo.allenai.org.
English
Today's most advanced multimodal models remain proprietary. The strongest open-weight models rely heavily on synthetic data from proprietary VLMs to achieve good performance, effectively distilling these closed models into open ones. As a result, the community is still missing foundational knowledge about how to build performant VLMs from scratch. We present Molmo, a new family of VLMs that are state-of-the-art in their class of openness. Our key innovation is a novel, highly detailed image caption dataset collected entirely from human annotators using speech-based descriptions. To enable a wide array of user interactions, we also introduce a diverse dataset mixture for fine-tuning that includes in-the-wild Q&A and innovative 2D pointing data. The success of our approach relies on careful choices for the model architecture details, a well-tuned training pipeline, and, most critically, the quality of our newly collected datasets, all of which will be released. The best-in-class 72B model within the Molmo family not only outperforms others in the class of open weight and data models but also compares favorably against proprietary systems like GPT-4o, Claude 3.5, and Gemini 1.5 on both academic benchmarks and human evaluation. We will be releasing all of our model weights, captioning and fine-tuning data, and source code in the near future. Select model weights, inference code, and demo are available at https://molmo.allenai.org.

Summary

AI-Generated Summary

PDF1144November 16, 2024