BLIP3o-NEXT : La nouvelle frontière de la génération native d'images
BLIP3o-NEXT: Next Frontier of Native Image Generation
October 17, 2025
papers.authors: Jiuhai Chen, Le Xue, Zhiyang Xu, Xichen Pan, Shusheng Yang, Can Qin, An Yan, Honglu Zhou, Zeyuan Chen, Lifu Huang, Tianyi Zhou, Junnan Li, Silvio Savarese, Caiming Xiong, Ran Xu
cs.AI
papers.abstract
Nous présentons BLIP3o-NEXT, un modèle de base entièrement open-source de la série BLIP3 qui repousse les frontières de la génération native d'images. BLIP3o-NEXT unifie la génération d'images à partir de texte et l'édition d'images au sein d'une seule architecture, démontrant des capacités impressionnantes en génération et en édition d'images. En développant ce modèle de pointe en génération native d'images, nous avons identifié quatre insights clés : (1) La plupart des choix architecturaux offrent des performances comparables ; une architecture peut être considérée comme efficace si elle s'adapte efficacement et supporte une inférence rapide ; (2) L'application réussie de l'apprentissage par renforcement peut repousser les limites de la génération native d'images ; (3) L'édition d'images reste une tâche complexe, mais le suivi d'instructions et la cohérence entre les images générées et les images de référence peuvent être significativement améliorés grâce au post-entraînement et à un moteur de données ; (4) La qualité et l'échelle des données continuent d'être des facteurs décisifs qui déterminent la limite supérieure des performances du modèle. En s'appuyant sur ces insights, BLIP3o-NEXT utilise une architecture Autoregressive + Diffusion dans laquelle un modèle autoregressif génère d'abord des tokens d'images discrets conditionnés par des entrées multimodales, dont les états cachés sont ensuite utilisés comme signaux de conditionnement pour un modèle de diffusion afin de générer des images haute fidélité. Cette architecture intègre la force de raisonnement et le suivi d'instructions des modèles autoregressifs avec la capacité de rendu de détails fins des modèles de diffusion, atteignant un nouveau niveau de cohérence et de réalisme. Des évaluations approfondies sur divers benchmarks de génération d'images à partir de texte et d'édition d'images montrent que BLIP3o-NEXT surpasse les performances des modèles existants.
English
We present BLIP3o-NEXT, a fully open-source foundation model in the BLIP3
series that advances the next frontier of native image generation. BLIP3o-NEXT
unifies text-to-image generation and image editing within a single
architecture, demonstrating strong image generation and image editing
capabilities. In developing the state-of-the-art native image generation model,
we identify four key insights: (1) Most architectural choices yield comparable
performance; an architecture can be deemed effective provided it scales
efficiently and supports fast inference; (2) The successful application of
reinforcement learning can further push the frontier of native image
generation; (3) Image editing still remains a challenging task, yet instruction
following and the consistency between generated and reference images can be
significantly enhanced through post-training and data engine; (4) Data quality
and scale continue to be decisive factors that determine the upper bound of
model performance. Building upon these insights, BLIP3o-NEXT leverages an
Autoregressive + Diffusion architecture in which an autoregressive model first
generates discrete image tokens conditioned on multimodal inputs, whose hidden
states are then used as conditioning signals for a diffusion model to generate
high-fidelity images. This architecture integrates the reasoning strength and
instruction following of autoregressive models with the fine-detail rendering
ability of diffusion models, achieving a new level of coherence and realism.
Extensive evaluations of various text-to-image and image-editing benchmarks
show that BLIP3o-NEXT achieves superior performance over existing models.