BLIP3-o: Семейство полностью открытых унифицированных мультимодальных моделей — архитектура, обучение и набор данных
BLIP3-o: A Family of Fully Open Unified Multimodal Models-Architecture, Training and Dataset
May 14, 2025
Авторы: Jiuhai Chen, Zhiyang Xu, Xichen Pan, Yushi Hu, Can Qin, Tom Goldstein, Lifu Huang, Tianyi Zhou, Saining Xie, Silvio Savarese, Le Xue, Caiming Xiong, Ran Xu
cs.AI
Аннотация
Объединение задач понимания и генерации изображений привлекает все больше внимания в современных исследованиях мультимодальных моделей. Хотя архитектурные решения для понимания изображений были тщательно изучены, оптимальная архитектура модели и стратегия обучения для унифицированного подхода с генерацией изображений остаются недостаточно исследованными. Вдохновленные значительным потенциалом авторегрессивных и диффузионных моделей для создания высококачественных изображений и их масштабируемости, мы проводим всестороннее исследование их применения в унифицированных мультимодальных настройках, уделяя особое внимание представлениям изображений, целям моделирования и стратегиям обучения. Основываясь на этих исследованиях, мы предлагаем новый подход, который использует диффузионный трансформер для генерации семантически насыщенных CLIP-признаков изображений, в отличие от традиционных представлений на основе VAE. Такая архитектура обеспечивает как более высокую эффективность обучения, так и улучшенное качество генерации. Кроме того, мы показываем, что последовательная стратегия предварительного обучения для унифицированных моделей — сначала на задачах понимания изображений, а затем на генерации — предлагает практические преимущества, сохраняя способность к пониманию изображений при развитии сильных навыков генерации. Наконец, мы тщательно создаем высококачественный набор данных для тонкой настройки BLIP3o-60k, предназначенный для генерации изображений, путем запроса GPT-4o с использованием разнообразных подписей, охватывающих различные сцены, объекты, жесты людей и многое другое. Опираясь на нашу инновационную архитектуру модели, стратегию обучения и наборы данных, мы разрабатываем BLIP3-o — набор передовых унифицированных мультимодальных моделей. BLIP3-o демонстрирует превосходную производительность на большинстве популярных бенчмарков, охватывающих как задачи понимания, так и генерации изображений. Для содействия будущим исследованиям мы полностью открываем исходный код наших моделей, включая код, веса моделей, скрипты обучения, а также наборы данных для предварительного обучения и тонкой настройки.
English
Unifying image understanding and generation has gained growing attention in
recent research on multimodal models. Although design choices for image
understanding have been extensively studied, the optimal model architecture and
training recipe for a unified framework with image generation remain
underexplored. Motivated by the strong potential of autoregressive and
diffusion models for high-quality generation and scalability, we conduct a
comprehensive study of their use in unified multimodal settings, with emphasis
on image representations, modeling objectives, and training strategies.
Grounded in these investigations, we introduce a novel approach that employs a
diffusion transformer to generate semantically rich CLIP image features, in
contrast to conventional VAE-based representations. This design yields both
higher training efficiency and improved generative quality. Furthermore, we
demonstrate that a sequential pretraining strategy for unified models-first
training on image understanding and subsequently on image generation-offers
practical advantages by preserving image understanding capability while
developing strong image generation ability. Finally, we carefully curate a
high-quality instruction-tuning dataset BLIP3o-60k for image generation by
prompting GPT-4o with a diverse set of captions covering various scenes,
objects, human gestures, and more. Building on our innovative model design,
training recipe, and datasets, we develop BLIP3-o, a suite of state-of-the-art
unified multimodal models. BLIP3-o achieves superior performance across most of
the popular benchmarks spanning both image understanding and generation tasks.
To facilitate future research, we fully open-source our models, including code,
model weights, training scripts, and pretraining and instruction tuning
datasets.Summary
AI-Generated Summary