Возникающие свойства в унифицированном многомодальном предобученииEmerging Properties in Unified Multimodal Pretraining
Объединение мультимодального понимания и генерации продемонстрировало впечатляющие возможности в передовых проприетарных системах. В данной работе мы представляем BAGEL — открытую базовую модель, которая изначально поддерживает мультимодальное понимание и генерацию. BAGEL представляет собой унифицированную модель, использующую только декодер, предварительно обученную на триллионах токенов, отобранных из крупномасштабных переплетенных данных, включающих текст, изображения, видео и веб-данные. При масштабировании с использованием таких разнообразных мультимодальных данных BAGEL демонстрирует возникающие способности к сложному мультимодальному рассуждению. В результате она значительно превосходит открытые унифицированные модели как в мультимодальной генерации, так и в понимании на стандартных тестах, одновременно проявляя продвинутые способности к мультимодальному рассуждению, такие как свободное манипулирование изображениями, предсказание будущих кадров, 3D-манипуляции и навигация в мире. С целью содействия дальнейшим исследованиям в области мультимодальности мы делимся ключевыми результатами, деталями предварительного обучения, протоколом создания данных, а также публикуем наш код и контрольные точки для сообщества. Страница проекта доступна по адресу https://bagel-ai.org/.