Molmo e PixMo: Pesi Aperti e Dati Aperti per Modelli Multimodali All'AvanguardiaMolmo and PixMo: Open Weights and Open Data for State-of-the-Art
Multimodal Models
I modelli multimodali più avanzati di oggi rimangono proprietari. I modelli open-weight più potenti si basano pesantemente su dati sintetici provenienti da VLM proprietari per ottenere buone prestazioni, effettivamente distillando questi modelli chiusi in modelli aperti. Di conseguenza, alla comunità manca ancora una conoscenza fondamentale su come costruire VLM performanti da zero. Presentiamo Molmo, una nuova famiglia di VLM che sono all'avanguardia nella loro classe di apertura. La nostra innovazione chiave è un nuovo dataset altamente dettagliato di didascalie per immagini raccolto interamente da annotatori umani utilizzando descrizioni basate su speech. Per consentire una vasta gamma di interazioni utente, introduciamo anche una variegata miscela di dataset per il fine-tuning che include Q&A in-the-wild e dati innovativi di puntamento 2D. Il successo del nostro approccio si basa su scelte oculate per i dettagli dell'architettura del modello, un ben tarato pipeline di addestramento e, soprattutto, sulla qualità dei nostri dataset appena raccolti, tutti i quali saranno resi disponibili. Il modello best-in-class da 72B all'interno della famiglia Molmo non solo supera gli altri nella classe di modelli open weight e dati, ma si confronta favorevolmente anche con sistemi proprietari come GPT-4o, Claude 3.5 e Gemini 1.5 su entrambi i benchmark accademici e le valutazioni umane. Rilasceremo tutti i pesi del nostro modello, i dati di didascalia e di fine-tuning, e il codice sorgente nel prossimo futuro. Alcuni pesi del modello selezionati, il codice di inferenza e la demo sono disponibili su https://molmo.allenai.org.