BLIP3o-NEXT: La Nuova Frontiera della Generazione Nativa di Immagini
BLIP3o-NEXT: Next Frontier of Native Image Generation
October 17, 2025
Autori: Jiuhai Chen, Le Xue, Zhiyang Xu, Xichen Pan, Shusheng Yang, Can Qin, An Yan, Honglu Zhou, Zeyuan Chen, Lifu Huang, Tianyi Zhou, Junnan Li, Silvio Savarese, Caiming Xiong, Ran Xu
cs.AI
Abstract
Presentiamo BLIP3o-NEXT, un modello di base completamente open-source della serie BLIP3 che avanza la prossima frontiera della generazione nativa di immagini. BLIP3o-NEXT unisce la generazione di immagini da testo e l'editing di immagini all'interno di un'unica architettura, dimostrando forti capacità sia nella generazione che nell'editing di immagini. Nello sviluppo di questo modello all'avanguardia per la generazione nativa di immagini, abbiamo identificato quattro intuizioni chiave: (1) La maggior parte delle scelte architetturali produce prestazioni comparabili; un'architettura può essere considerata efficace purché si ridimensioni in modo efficiente e supporti un'inferenza veloce; (2) L'applicazione riuscita del reinforcement learning può ulteriormente spingere la frontiera della generazione nativa di immagini; (3) L'editing di immagini rimane un compito impegnativo, ma il rispetto delle istruzioni e la coerenza tra le immagini generate e quelle di riferimento possono essere significativamente migliorati attraverso post-training e un motore di dati; (4) La qualità e la scala dei dati continuano a essere fattori decisivi che determinano il limite superiore delle prestazioni del modello. Basandoci su queste intuizioni, BLIP3o-NEXT sfrutta un'architettura Autoregressiva + Diffusion in cui un modello autoregressivo genera prima token di immagini discreti condizionati da input multimodali, i cui stati nascosti vengono poi utilizzati come segnali di condizionamento per un modello di diffusione per generare immagini ad alta fedeltà. Questa architettura integra la forza di ragionamento e il rispetto delle istruzioni dei modelli autoregressivi con la capacità di rendering dei dettagli fini dei modelli di diffusione, raggiungendo un nuovo livello di coerenza e realismo. Valutazioni estensive su vari benchmark di generazione di immagini da testo e di editing di immagini dimostrano che BLIP3o-NEXT raggiunge prestazioni superiori rispetto ai modelli esistenti.
English
We present BLIP3o-NEXT, a fully open-source foundation model in the BLIP3
series that advances the next frontier of native image generation. BLIP3o-NEXT
unifies text-to-image generation and image editing within a single
architecture, demonstrating strong image generation and image editing
capabilities. In developing the state-of-the-art native image generation model,
we identify four key insights: (1) Most architectural choices yield comparable
performance; an architecture can be deemed effective provided it scales
efficiently and supports fast inference; (2) The successful application of
reinforcement learning can further push the frontier of native image
generation; (3) Image editing still remains a challenging task, yet instruction
following and the consistency between generated and reference images can be
significantly enhanced through post-training and data engine; (4) Data quality
and scale continue to be decisive factors that determine the upper bound of
model performance. Building upon these insights, BLIP3o-NEXT leverages an
Autoregressive + Diffusion architecture in which an autoregressive model first
generates discrete image tokens conditioned on multimodal inputs, whose hidden
states are then used as conditioning signals for a diffusion model to generate
high-fidelity images. This architecture integrates the reasoning strength and
instruction following of autoregressive models with the fine-detail rendering
ability of diffusion models, achieving a new level of coherence and realism.
Extensive evaluations of various text-to-image and image-editing benchmarks
show that BLIP3o-NEXT achieves superior performance over existing models.