BLIP3o-NEXT: A Próxima Fronteira na Geração Nativa de Imagens
BLIP3o-NEXT: Next Frontier of Native Image Generation
October 17, 2025
Autores: Jiuhai Chen, Le Xue, Zhiyang Xu, Xichen Pan, Shusheng Yang, Can Qin, An Yan, Honglu Zhou, Zeyuan Chen, Lifu Huang, Tianyi Zhou, Junnan Li, Silvio Savarese, Caiming Xiong, Ran Xu
cs.AI
Resumo
Apresentamos o BLIP3o-NEXT, um modelo de base totalmente de código aberto da série BLIP3 que avança a próxima fronteira da geração nativa de imagens. O BLIP3o-NEXT unifica a geração de texto para imagem e a edição de imagens em uma única arquitetura, demonstrando capacidades robustas tanto na geração quanto na edição de imagens. No desenvolvimento deste modelo de última geração para geração nativa de imagens, identificamos quatro insights principais: (1) A maioria das escolhas arquitetônicas resulta em desempenho comparável; uma arquitetura pode ser considerada eficaz desde que escale de forma eficiente e suporte inferência rápida; (2) A aplicação bem-sucedida de aprendizado por reforço pode avançar ainda mais a fronteira da geração nativa de imagens; (3) A edição de imagens ainda permanece uma tarefa desafiadora, mas o seguimento de instruções e a consistência entre as imagens geradas e as de referência podem ser significativamente aprimorados por meio de pós-treinamento e um mecanismo de dados; (4) A qualidade e a escala dos dados continuam sendo fatores decisivos que determinam o limite superior do desempenho do modelo. Com base nesses insights, o BLIP3o-NEXT utiliza uma arquitetura Autoregressiva + Difusão, na qual um modelo autoregressivo gera primeiro tokens discretos de imagem condicionados a entradas multimodais, cujos estados ocultos são então usados como sinais de condicionamento para um modelo de difusão gerar imagens de alta fidelidade. Essa arquitetura integra a força de raciocínio e o seguimento de instruções dos modelos autoregressivos com a capacidade de renderização de detalhes finos dos modelos de difusão, alcançando um novo nível de coerência e realismo. Avaliações extensas em diversos benchmarks de texto para imagem e edição de imagens mostram que o BLIP3o-NEXT alcança desempenho superior em relação aos modelos existentes.
English
We present BLIP3o-NEXT, a fully open-source foundation model in the BLIP3
series that advances the next frontier of native image generation. BLIP3o-NEXT
unifies text-to-image generation and image editing within a single
architecture, demonstrating strong image generation and image editing
capabilities. In developing the state-of-the-art native image generation model,
we identify four key insights: (1) Most architectural choices yield comparable
performance; an architecture can be deemed effective provided it scales
efficiently and supports fast inference; (2) The successful application of
reinforcement learning can further push the frontier of native image
generation; (3) Image editing still remains a challenging task, yet instruction
following and the consistency between generated and reference images can be
significantly enhanced through post-training and data engine; (4) Data quality
and scale continue to be decisive factors that determine the upper bound of
model performance. Building upon these insights, BLIP3o-NEXT leverages an
Autoregressive + Diffusion architecture in which an autoregressive model first
generates discrete image tokens conditioned on multimodal inputs, whose hidden
states are then used as conditioning signals for a diffusion model to generate
high-fidelity images. This architecture integrates the reasoning strength and
instruction following of autoregressive models with the fine-detail rendering
ability of diffusion models, achieving a new level of coherence and realism.
Extensive evaluations of various text-to-image and image-editing benchmarks
show that BLIP3o-NEXT achieves superior performance over existing models.