Molmo en PixMo: Open Gewichten en Open Data voor Toonaangevende Multimodale ModellenMolmo and PixMo: Open Weights and Open Data for State-of-the-Art
Multimodal Models
De meest geavanceerde multimodale modellen van vandaag blijven eigendom van bedrijven. De sterkste open-gewicht modellen vertrouwen zwaar op synthetische data van eigendom VLM's om goede prestaties te behalen, waarbij deze gesloten modellen effectief worden gedistilleerd tot open modellen. Als gevolg hiervan ontbreekt het de gemeenschap nog steeds aan fundamentele kennis over hoe performante VLM's vanaf nul moeten worden opgebouwd. Wij presenteren Molmo, een nieuwe familie van VLM's die state-of-the-art zijn in hun openheidscategorie. Onze belangrijkste innovatie is een nieuw, zeer gedetailleerd dataset voor het beschrijven van afbeeldingen, volledig verzameld door menselijke annotatoren met behulp van spraakgebaseerde beschrijvingen. Om een breed scala aan gebruikersinteracties mogelijk te maken, introduceren we ook een gevarieerde datasetmix voor fine-tuning die in-the-wild Q&A en innovatieve 2D-pointing data omvat. Het succes van onze aanpak berust op zorgvuldige keuzes voor de details van de modelarchitectuur, een goed afgestemd trainingsproces en, het belangrijkste, de kwaliteit van onze nieuw verzamelde datasets, die allemaal zullen worden vrijgegeven. Het toonaangevende 72B-model binnen de Molmo-familie presteert niet alleen beter dan andere modellen in de open-gewichts- en datamodellenklasse, maar vergelijkt ook gunstig met eigendomssystemen zoals GPT-4o, Claude 3.5 en Gemini 1.5 op zowel academische benchmarks als menselijke evaluaties. We zullen al onze modelgewichten, bijschrift- en fine-tuningdata en broncode binnenkort vrijgeven. Geselecteerde modelgewichten, inferentiecode en demo zijn beschikbaar op https://molmo.allenai.org.