Molmo e PixMo: Pesos Abertos e Dados Abertos para Modelos Multimodais de Última Geração

Resumo

Os modelos multimodais mais avançados de hoje permanecem proprietários. Os modelos abertos mais fortes dependem fortemente de dados sintéticos de VLMs proprietários para alcançar um bom desempenho, destilando efetivamente esses modelos fechados em modelos abertos. Como resultado, a comunidade ainda carece de conhecimento fundamental sobre como construir VLMs performáticos do zero. Apresentamos o Molmo, uma nova família de VLMs que são de ponta em sua classe de abertura. Nossa inovação chave é um novo conjunto de dados de legendas de imagens altamente detalhado coletado inteiramente por anotadores humanos usando descrições baseadas em fala. Para permitir uma ampla gama de interações do usuário, também introduzimos uma mistura diversificada de conjuntos de dados para ajuste fino que inclui perguntas e respostas do mundo real e dados inovadores de apontamento 2D. O sucesso de nossa abordagem depende de escolhas cuidadosas para os detalhes da arquitetura do modelo, um pipeline de treinamento bem ajustado e, mais criticamente, a qualidade de nossos conjuntos de dados recém-coletados, todos os quais serão disponibilizados. O modelo 72B líder da família Molmo não apenas supera outros na classe de modelos abertos e de dados, mas também se compara favoravelmente aos sistemas proprietários como GPT-4o, Claude 3.5 e Gemini 1.5 em ambos os benchmarks acadêmicos e avaliação humana. Estaremos disponibilizando todos os pesos do nosso modelo, dados de legendagem e ajuste fino, e código-fonte em um futuro próximo. Alguns pesos do modelo selecionados, código de inferência e demonstração estão disponíveis em https://molmo.allenai.org.

English

Today's most advanced multimodal models remain proprietary. The strongest open-weight models rely heavily on synthetic data from proprietary VLMs to achieve good performance, effectively distilling these closed models into open ones. As a result, the community is still missing foundational knowledge about how to build performant VLMs from scratch. We present Molmo, a new family of VLMs that are state-of-the-art in their class of openness. Our key innovation is a novel, highly detailed image caption dataset collected entirely from human annotators using speech-based descriptions. To enable a wide array of user interactions, we also introduce a diverse dataset mixture for fine-tuning that includes in-the-wild Q&A and innovative 2D pointing data. The success of our approach relies on careful choices for the model architecture details, a well-tuned training pipeline, and, most critically, the quality of our newly collected datasets, all of which will be released. The best-in-class 72B model within the Molmo family not only outperforms others in the class of open weight and data models but also compares favorably against proprietary systems like GPT-4o, Claude 3.5, and Gemini 1.5 on both academic benchmarks and human evaluation. We will be releasing all of our model weights, captioning and fine-tuning data, and source code in the near future. Select model weights, inference code, and demo are available at https://molmo.allenai.org.

Molmo e PixMo: Pesos Abertos e Dados Abertos para Modelos Multimodais de Última Geração

Molmo and PixMo: Open Weights and Open Data for State-of-the-Art Multimodal Models

Resumo

Support