Molmo и PixMo: открытые веса и открытые данные для мультимодельных моделей новейшего поколенияMolmo and PixMo: Open Weights and Open Data for State-of-the-Art
Multimodal Models
Сегодняшние самые передовые мультимодальные модели остаются собственностью. Самые мощные модели с открытым весом тесно зависят от синтетических данных от собственных VLM для достижения хорошей производительности, эффективно дистиллируя эти закрытые модели в открытые. В результате сообществу по-прежнему не хватает фундаментальных знаний о том, как создавать производительные VLM с нуля. Мы представляем Molmo, новое семейство VLM, которые являются передовыми в своем классе открытости. Нашим ключевым новшеством является новый, высокодетализированный набор данных для описания изображений, собранный исключительно от человеческих аннотаторов с использованием описаний на основе речи. Для обеспечения широкого спектра пользовательских взаимодействий мы также представляем разнообразный набор данных для донастройки, который включает в себя Q&A на природе и инновационные данные указания в 2D. Успех нашего подхода зависит от тщательного выбора деталей архитектуры модели, хорошо настроенного процесса обучения и, что самое критическое, качества наших недавно собранных наборов данных, все из которых будут опубликованы. Лучшая модель 72B в семействе Molmo не только превосходит другие в классе моделей с открытым весом и данными, но также сравнима с собственными системами, такими как GPT-4o, Claude 3.5 и Gemini 1.5, как по академическим бенчмаркам, так и по оценке людей. Мы планируем скоро опубликовать все веса нашей модели, данные для подписей и донастройки, а также исходный код. Некоторые веса модели, код вывода и демонстрация доступны на https://molmo.allenai.org.