BLIP3o-NEXT: Die nächste Grenze der nativen Bildgenerierung
BLIP3o-NEXT: Next Frontier of Native Image Generation
October 17, 2025
papers.authors: Jiuhai Chen, Le Xue, Zhiyang Xu, Xichen Pan, Shusheng Yang, Can Qin, An Yan, Honglu Zhou, Zeyuan Chen, Lifu Huang, Tianyi Zhou, Junnan Li, Silvio Savarese, Caiming Xiong, Ran Xu
cs.AI
papers.abstract
Wir präsentieren BLIP3o-NEXT, ein vollständig quelloffenes Basismodell der BLIP3-Serie, das die nächste Grenze der nativen Bildgenerierung vorantreibt. BLIP3o-NEXT vereint Text-zu-Bild-Generierung und Bildbearbeitung in einer einzigen Architektur und zeigt dabei starke Fähigkeiten in beiden Bereichen. Bei der Entwicklung des modernsten Modells für native Bildgenerierung haben wir vier zentrale Erkenntnisse gewonnen: (1) Die meisten architektonischen Entscheidungen führen zu vergleichbarer Leistung; eine Architektur kann als effektiv betrachtet werden, sofern sie effizient skaliert und schnelle Inferenz unterstützt. (2) Die erfolgreiche Anwendung von Reinforcement Learning kann die Grenzen der nativen Bildgenerierung weiter verschieben. (3) Bildbearbeitung bleibt eine herausfordernde Aufgabe, doch die Befolgung von Anweisungen und die Konsistenz zwischen generierten und Referenzbildern können durch Nachtraining und Datenengine signifikant verbessert werden. (4) Datenqualität und -umfang bleiben entscheidende Faktoren, die die Obergrenze der Modellleistung bestimmen. Aufbauend auf diesen Erkenntnissen nutzt BLIP3o-NEXT eine autoregressive + Diffusions-Architektur, bei der ein autoregressives Modell zunächst diskrete Bild-Tokens basierend auf multimodalen Eingaben generiert, deren versteckte Zustände dann als Konditionierungssignale für ein Diffusionsmodell verwendet werden, um hochauflösende Bilder zu erzeugen. Diese Architektur integriert die Stärken des logischen Schließens und der Anweisungsbefolgung autoregressiver Modelle mit der Fähigkeit von Diffusionsmodellen, feine Details darzustellen, und erreicht damit ein neues Niveau an Kohärenz und Realismus. Umfangreiche Bewertungen verschiedener Text-zu-Bild- und Bildbearbeitungs-Benchmarks zeigen, dass BLIP3o-NEXT eine überlegene Leistung gegenüber bestehenden Modellen erzielt.
English
We present BLIP3o-NEXT, a fully open-source foundation model in the BLIP3
series that advances the next frontier of native image generation. BLIP3o-NEXT
unifies text-to-image generation and image editing within a single
architecture, demonstrating strong image generation and image editing
capabilities. In developing the state-of-the-art native image generation model,
we identify four key insights: (1) Most architectural choices yield comparable
performance; an architecture can be deemed effective provided it scales
efficiently and supports fast inference; (2) The successful application of
reinforcement learning can further push the frontier of native image
generation; (3) Image editing still remains a challenging task, yet instruction
following and the consistency between generated and reference images can be
significantly enhanced through post-training and data engine; (4) Data quality
and scale continue to be decisive factors that determine the upper bound of
model performance. Building upon these insights, BLIP3o-NEXT leverages an
Autoregressive + Diffusion architecture in which an autoregressive model first
generates discrete image tokens conditioned on multimodal inputs, whose hidden
states are then used as conditioning signals for a diffusion model to generate
high-fidelity images. This architecture integrates the reasoning strength and
instruction following of autoregressive models with the fine-detail rendering
ability of diffusion models, achieving a new level of coherence and realism.
Extensive evaluations of various text-to-image and image-editing benchmarks
show that BLIP3o-NEXT achieves superior performance over existing models.