ChatPaper.aiChatPaper

BLIP3o-NEXT: De volgende grens van native beeldgeneratie

BLIP3o-NEXT: Next Frontier of Native Image Generation

October 17, 2025
Auteurs: Jiuhai Chen, Le Xue, Zhiyang Xu, Xichen Pan, Shusheng Yang, Can Qin, An Yan, Honglu Zhou, Zeyuan Chen, Lifu Huang, Tianyi Zhou, Junnan Li, Silvio Savarese, Caiming Xiong, Ran Xu
cs.AI

Samenvatting

We presenteren BLIP3o-NEXT, een volledig open-source foundation model in de BLIP3-serie dat de volgende grens van native beeldgeneratie verlegt. BLIP3o-NEXT verenigt tekst-naar-beeldgeneratie en beeldbewerking binnen een enkele architectuur, waarbij het sterke beeldgeneratie- en beeldbewerkingsmogelijkheden demonstreert. Bij het ontwikkelen van het state-of-the-art native beeldgeneratiemodel hebben we vier belangrijke inzichten geïdentificeerd: (1) De meeste architecturale keuzes leveren vergelijkbare prestaties; een architectuur kan als effectief worden beschouwd mits deze efficiënt schaalt en snelle inferentie ondersteunt; (2) De succesvolle toepassing van reinforcement learning kan de grens van native beeldgeneratie verder verleggen; (3) Beeldbewerking blijft een uitdagende taak, maar instructievolging en de consistentie tussen gegenereerde en referentiebeelden kunnen aanzienlijk worden verbeterd door post-training en een data-engine; (4) Data-kwaliteit en -schaal blijven beslissende factoren die de bovengrens van modelprestaties bepalen. Op basis van deze inzichten maakt BLIP3o-NEXT gebruik van een Autoregressieve + Diffusie-architectuur waarin een autoregressief model eerst discrete beeldtokens genereert, geconditioneerd op multimodale invoer, waarvan de verborgen toestanden vervolgens worden gebruikt als conditioneringssignalen voor een diffusiemodel om hoogwaardige beelden te genereren. Deze architectuur integreert de redeneerkracht en instructievolging van autoregressieve modellen met het vermogen om fijne details weer te geven van diffusiemodellen, waardoor een nieuw niveau van samenhang en realisme wordt bereikt. Uitgebreide evaluaties van verschillende tekst-naar-beeld- en beeldbewerkingsbenchmarks tonen aan dat BLIP3o-NEXT superieure prestaties behaalt ten opzichte van bestaande modellen.
English
We present BLIP3o-NEXT, a fully open-source foundation model in the BLIP3 series that advances the next frontier of native image generation. BLIP3o-NEXT unifies text-to-image generation and image editing within a single architecture, demonstrating strong image generation and image editing capabilities. In developing the state-of-the-art native image generation model, we identify four key insights: (1) Most architectural choices yield comparable performance; an architecture can be deemed effective provided it scales efficiently and supports fast inference; (2) The successful application of reinforcement learning can further push the frontier of native image generation; (3) Image editing still remains a challenging task, yet instruction following and the consistency between generated and reference images can be significantly enhanced through post-training and data engine; (4) Data quality and scale continue to be decisive factors that determine the upper bound of model performance. Building upon these insights, BLIP3o-NEXT leverages an Autoregressive + Diffusion architecture in which an autoregressive model first generates discrete image tokens conditioned on multimodal inputs, whose hidden states are then used as conditioning signals for a diffusion model to generate high-fidelity images. This architecture integrates the reasoning strength and instruction following of autoregressive models with the fine-detail rendering ability of diffusion models, achieving a new level of coherence and realism. Extensive evaluations of various text-to-image and image-editing benchmarks show that BLIP3o-NEXT achieves superior performance over existing models.
PDF202October 20, 2025