BLIP3o-NEXT: Следующий рубеж в генерации изображений нативного качества

Аннотация

Мы представляем BLIP3o-NEXT, полностью открытую базовую модель из серии BLIP3, которая выводит генерацию нативных изображений на новый уровень. BLIP3o-NEXT объединяет генерацию изображений из текста и редактирование изображений в рамках единой архитектуры, демонстрируя мощные возможности как в создании, так и в редактировании изображений. В процессе разработки передовой модели для генерации нативных изображений мы выделили четыре ключевых инсайта: (1) Большинство архитектурных решений обеспечивают сопоставимую производительность; архитектуру можно считать эффективной, если она масштабируется с высокой эффективностью и поддерживает быстрое выполнение; (2) Успешное применение обучения с подкреплением может значительно продвинуть границы генерации нативных изображений; (3) Редактирование изображений по-прежнему остается сложной задачей, однако следование инструкциям и согласованность между сгенерированными и эталонными изображениями могут быть значительно улучшены за счет пост-обучения и работы с данными; (4) Качество и объем данных остаются решающими факторами, определяющими верхний предел производительности модели. Опираясь на эти инсайты, BLIP3o-NEXT использует архитектуру "Авторегрессия + Диффузия", в которой авторегрессионная модель сначала генерирует дискретные токены изображений на основе мультимодальных входных данных, а их скрытые состояния затем используются как сигналы для диффузионной модели, создающей изображения с высокой детализацией. Эта архитектура объединяет аналитические способности и следование инструкциям авторегрессионных моделей с возможностью рендеринга мелких деталей диффузионных моделей, достигая нового уровня согласованности и реалистичности. Обширные оценки на различных бенчмарках для генерации изображений из текста и редактирования изображений показывают, что BLIP3o-NEXT превосходит существующие модели по производительности.

English

We present BLIP3o-NEXT, a fully open-source foundation model in the BLIP3 series that advances the next frontier of native image generation. BLIP3o-NEXT unifies text-to-image generation and image editing within a single architecture, demonstrating strong image generation and image editing capabilities. In developing the state-of-the-art native image generation model, we identify four key insights: (1) Most architectural choices yield comparable performance; an architecture can be deemed effective provided it scales efficiently and supports fast inference; (2) The successful application of reinforcement learning can further push the frontier of native image generation; (3) Image editing still remains a challenging task, yet instruction following and the consistency between generated and reference images can be significantly enhanced through post-training and data engine; (4) Data quality and scale continue to be decisive factors that determine the upper bound of model performance. Building upon these insights, BLIP3o-NEXT leverages an Autoregressive + Diffusion architecture in which an autoregressive model first generates discrete image tokens conditioned on multimodal inputs, whose hidden states are then used as conditioning signals for a diffusion model to generate high-fidelity images. This architecture integrates the reasoning strength and instruction following of autoregressive models with the fine-detail rendering ability of diffusion models, achieving a new level of coherence and realism. Extensive evaluations of various text-to-image and image-editing benchmarks show that BLIP3o-NEXT achieves superior performance over existing models.

BLIP3o-NEXT: Следующий рубеж в генерации изображений нативного качества

BLIP3o-NEXT: Next Frontier of Native Image Generation

Аннотация

Support