BLIP3-o: Семейство полностью открытых унифицированных мультимодальных моделей — архитектура, обучение и набор данныхBLIP3-o: A Family of Fully Open Unified Multimodal Models-Architecture,
Training and Dataset
Объединение задач понимания и генерации изображений привлекает все больше внимания в современных исследованиях мультимодальных моделей. Хотя архитектурные решения для понимания изображений были тщательно изучены, оптимальная архитектура модели и стратегия обучения для унифицированного подхода с генерацией изображений остаются недостаточно исследованными. Вдохновленные значительным потенциалом авторегрессивных и диффузионных моделей для создания высококачественных изображений и их масштабируемости, мы проводим всестороннее исследование их применения в унифицированных мультимодальных настройках, уделяя особое внимание представлениям изображений, целям моделирования и стратегиям обучения. Основываясь на этих исследованиях, мы предлагаем новый подход, который использует диффузионный трансформер для генерации семантически насыщенных CLIP-признаков изображений, в отличие от традиционных представлений на основе VAE. Такая архитектура обеспечивает как более высокую эффективность обучения, так и улучшенное качество генерации. Кроме того, мы показываем, что последовательная стратегия предварительного обучения для унифицированных моделей — сначала на задачах понимания изображений, а затем на генерации — предлагает практические преимущества, сохраняя способность к пониманию изображений при развитии сильных навыков генерации. Наконец, мы тщательно создаем высококачественный набор данных для тонкой настройки BLIP3o-60k, предназначенный для генерации изображений, путем запроса GPT-4o с использованием разнообразных подписей, охватывающих различные сцены, объекты, жесты людей и многое другое. Опираясь на нашу инновационную архитектуру модели, стратегию обучения и наборы данных, мы разрабатываем BLIP3-o — набор передовых унифицированных мультимодальных моделей. BLIP3-o демонстрирует превосходную производительность на большинстве популярных бенчмарков, охватывающих как задачи понимания, так и генерации изображений. Для содействия будущим исследованиям мы полностью открываем исходный код наших моделей, включая код, веса моделей, скрипты обучения, а также наборы данных для предварительного обучения и тонкой настройки.