Molmo y PixMo: Pesos Abiertos y Datos Abiertos para Modelos Multimodales de Última GeneraciónMolmo and PixMo: Open Weights and Open Data for State-of-the-Art
Multimodal Models
Los modelos multimodales más avanzados de hoy en día siguen siendo propietarios. Los modelos de peso abierto más sólidos dependen en gran medida de datos sintéticos de VLMs propietarios para lograr un buen rendimiento, destilando eficazmente estos modelos cerrados en modelos abiertos. Como resultado, la comunidad todavía carece de conocimientos fundamentales sobre cómo construir VLMs eficientes desde cero. Presentamos Molmo, una nueva familia de VLMs que son de última generación en su clase de apertura. Nuestra innovación clave es un nuevo conjunto de datos de subtítulos de imágenes altamente detallado recopilado completamente por anotadores humanos utilizando descripciones basadas en voz. Para permitir una amplia gama de interacciones de usuario, también introducimos una mezcla diversa de conjuntos de datos para el ajuste fino que incluye preguntas y respuestas en entornos naturales y datos innovadores de punteo 2D. El éxito de nuestro enfoque se basa en elecciones cuidadosas para los detalles de la arquitectura del modelo, un proceso de entrenamiento bien ajustado y, lo más crítico, la calidad de nuestros conjuntos de datos recién recopilados, todos los cuales serán publicados. El modelo de 72B de primera clase dentro de la familia Molmo no solo supera a otros en la clase de modelos abiertos de peso y datos, sino que también se compara favorablemente con sistemas propietarios como GPT-4o, Claude 3.5 y Gemini 1.5 tanto en pruebas académicas como en evaluaciones humanas. Próximamente publicaremos todos los pesos de nuestro modelo, datos de subtítulos y ajuste fino, y código fuente. Algunos pesos de modelo seleccionados, código de inferencia y demostración están disponibles en https://molmo.allenai.org.