Molmo und PixMo: Offene Gewichte und offene Daten für modernste multimodale ModelleMolmo and PixMo: Open Weights and Open Data for State-of-the-Art
Multimodal Models
Die fortschrittlichsten multimodalen Modelle von heute bleiben proprietär. Die stärksten Open-Weight-Modelle stützen sich stark auf synthetische Daten von proprietären VLMs, um gute Leistungen zu erzielen, indem sie diese geschlossenen Modelle effektiv in offene umwandeln. Als Ergebnis fehlt der Community immer noch grundlegendes Wissen darüber, wie performante VLMs von Grund auf aufgebaut werden können. Wir stellen Molmo vor, eine neue Familie von VLMs, die in ihrer Offenheitsklasse auf dem neuesten Stand sind. Unsere Schlüsselinnovation ist ein neuartiger, hochdetaillierter Bildunterschrift-Datensatz, der vollständig von menschlichen Annotatoren unter Verwendung sprachbasierter Beschreibungen gesammelt wurde. Um eine Vielzahl von Benutzerinteraktionen zu ermöglichen, führen wir auch eine vielfältige Datensatzmischung für Feinabstimmung ein, die in-the-wild Q&A und innovative 2D-Zeigedaten umfasst. Der Erfolg unseres Ansatzes beruht auf sorgfältigen Entscheidungen für die Modellarchitekturdetails, einer gut abgestimmten Trainingspipeline und, am wichtigsten, der Qualität unserer neu gesammelten Datensätze, die alle veröffentlicht werden. Das bestplatzierte 72B-Modell innerhalb der Molmo-Familie übertrifft nicht nur andere Modelle in der Offenheitsklasse und Datenmodelle, sondern vergleicht sich auch positiv mit proprietären Systemen wie GPT-4o, Claude 3.5 und Gemini 1.5 sowohl in akademischen Benchmarks als auch in der menschlichen Bewertung. Wir werden in naher Zukunft alle unsere Modellgewichte, Bildunterschriften- und Feinabstimmungsdaten sowie den Quellcode veröffentlichen. Ausgewählte Modellgewichte, Inferenzcode und Demos sind unter https://molmo.allenai.org verfügbar.