Molmo et PixMo : Poids Ouverts et Données Ouvertes pour des Modèles Multimodaux de PointeMolmo and PixMo: Open Weights and Open Data for State-of-the-Art
Multimodal Models
Les modèles multimodaux les plus avancés d'aujourd'hui restent propriétaires. Les modèles ouverts les plus performants reposent largement sur des données synthétiques provenant de VLM propriétaires pour obtenir de bonnes performances, en distillant efficacement ces modèles fermés en modèles ouverts. En conséquence, la communauté manque toujours de connaissances fondamentales sur la manière de construire des VLM performants à partir de zéro. Nous présentons Molmo, une nouvelle famille de VLM qui sont à la pointe de leur classe en termes d'ouverture. Notre innovation clé est un ensemble de données de légendes d'images novateur et très détaillé, collecté entièrement par des annotateurs humains à l'aide de descriptions basées sur la parole. Pour permettre une large gamme d'interactions utilisateur, nous introduisons également un mélange diversifié d'ensembles de données pour le fine-tuning qui inclut des questions-réponses en conditions réelles et des données de pointage 2D innovantes. Le succès de notre approche repose sur des choix soigneux pour les détails de l'architecture du modèle, un pipeline d'entraînement bien réglé et, surtout, la qualité de nos ensembles de données nouvellement collectés, qui seront tous publiés. Le modèle 72B de pointe au sein de la famille Molmo surpasse non seulement les autres dans la classe des modèles ouverts en termes de poids et de données, mais se compare également favorablement aux systèmes propriétaires tels que GPT-4o, Claude 3.5 et Gemini 1.5 à la fois sur des benchmarks académiques et des évaluations humaines. Nous publierons bientôt tous nos poids de modèle, nos données de légendage et de fine-tuning, ainsi que notre code source. Certains poids de modèle, du code d'inférence et une démo sont disponibles sur https://molmo.allenai.org.