BLIP3o-NEXT: Следующий рубеж в генерации изображений нативного качества
BLIP3o-NEXT: Next Frontier of Native Image Generation
October 17, 2025
Авторы: Jiuhai Chen, Le Xue, Zhiyang Xu, Xichen Pan, Shusheng Yang, Can Qin, An Yan, Honglu Zhou, Zeyuan Chen, Lifu Huang, Tianyi Zhou, Junnan Li, Silvio Savarese, Caiming Xiong, Ran Xu
cs.AI
Аннотация
Мы представляем BLIP3o-NEXT, полностью открытую базовую модель из серии BLIP3, которая выводит генерацию нативных изображений на новый уровень. BLIP3o-NEXT объединяет генерацию изображений из текста и редактирование изображений в рамках единой архитектуры, демонстрируя мощные возможности как в создании, так и в редактировании изображений. В процессе разработки передовой модели для генерации нативных изображений мы выделили четыре ключевых инсайта: (1) Большинство архитектурных решений обеспечивают сопоставимую производительность; архитектуру можно считать эффективной, если она масштабируется с высокой эффективностью и поддерживает быстрое выполнение; (2) Успешное применение обучения с подкреплением может значительно продвинуть границы генерации нативных изображений; (3) Редактирование изображений по-прежнему остается сложной задачей, однако следование инструкциям и согласованность между сгенерированными и эталонными изображениями могут быть значительно улучшены за счет пост-обучения и работы с данными; (4) Качество и объем данных остаются решающими факторами, определяющими верхний предел производительности модели. Опираясь на эти инсайты, BLIP3o-NEXT использует архитектуру "Авторегрессия + Диффузия", в которой авторегрессионная модель сначала генерирует дискретные токены изображений на основе мультимодальных входных данных, а их скрытые состояния затем используются как сигналы для диффузионной модели, создающей изображения с высокой детализацией. Эта архитектура объединяет аналитические способности и следование инструкциям авторегрессионных моделей с возможностью рендеринга мелких деталей диффузионных моделей, достигая нового уровня согласованности и реалистичности. Обширные оценки на различных бенчмарках для генерации изображений из текста и редактирования изображений показывают, что BLIP3o-NEXT превосходит существующие модели по производительности.
English
We present BLIP3o-NEXT, a fully open-source foundation model in the BLIP3
series that advances the next frontier of native image generation. BLIP3o-NEXT
unifies text-to-image generation and image editing within a single
architecture, demonstrating strong image generation and image editing
capabilities. In developing the state-of-the-art native image generation model,
we identify four key insights: (1) Most architectural choices yield comparable
performance; an architecture can be deemed effective provided it scales
efficiently and supports fast inference; (2) The successful application of
reinforcement learning can further push the frontier of native image
generation; (3) Image editing still remains a challenging task, yet instruction
following and the consistency between generated and reference images can be
significantly enhanced through post-training and data engine; (4) Data quality
and scale continue to be decisive factors that determine the upper bound of
model performance. Building upon these insights, BLIP3o-NEXT leverages an
Autoregressive + Diffusion architecture in which an autoregressive model first
generates discrete image tokens conditioned on multimodal inputs, whose hidden
states are then used as conditioning signals for a diffusion model to generate
high-fidelity images. This architecture integrates the reasoning strength and
instruction following of autoregressive models with the fine-detail rendering
ability of diffusion models, achieving a new level of coherence and realism.
Extensive evaluations of various text-to-image and image-editing benchmarks
show that BLIP3o-NEXT achieves superior performance over existing models.