ChatPaper.aiChatPaper

BLIP3o-NEXT: La Próxima Frontera en la Generación Nativa de Imágenes

BLIP3o-NEXT: Next Frontier of Native Image Generation

October 17, 2025
Autores: Jiuhai Chen, Le Xue, Zhiyang Xu, Xichen Pan, Shusheng Yang, Can Qin, An Yan, Honglu Zhou, Zeyuan Chen, Lifu Huang, Tianyi Zhou, Junnan Li, Silvio Savarese, Caiming Xiong, Ran Xu
cs.AI

Resumen

Presentamos BLIP3o-NEXT, un modelo base completamente de código abierto de la serie BLIP3 que avanza hacia la nueva frontera de la generación nativa de imágenes. BLIP3o-NEXT unifica la generación de texto a imagen y la edición de imágenes en una única arquitectura, demostrando capacidades sólidas tanto en generación como en edición de imágenes. Al desarrollar este modelo de vanguardia en generación nativa de imágenes, identificamos cuatro ideas clave: (1) La mayoría de las decisiones arquitectónicas ofrecen un rendimiento comparable; una arquitectura puede considerarse efectiva siempre que escale eficientemente y permita inferencias rápidas; (2) La aplicación exitosa del aprendizaje por refuerzo puede impulsar aún más la frontera de la generación nativa de imágenes; (3) La edición de imágenes sigue siendo una tarea desafiante, aunque el seguimiento de instrucciones y la coherencia entre las imágenes generadas y las de referencia pueden mejorarse significativamente mediante post-entrenamiento y un motor de datos; (4) La calidad y escala de los datos continúan siendo factores decisivos que determinan el límite superior del rendimiento del modelo. Basándonos en estas ideas, BLIP3o-NEXT aprovecha una arquitectura Autoregresiva + Difusión en la que un modelo autoregresivo genera primero tokens discretos de imágenes condicionados por entradas multimodales, cuyos estados ocultos se utilizan como señales de condicionamiento para un modelo de difusión que genera imágenes de alta fidelidad. Esta arquitectura integra la capacidad de razonamiento y seguimiento de instrucciones de los modelos autoregresivos con la habilidad de renderizar detalles finos de los modelos de difusión, logrando un nuevo nivel de coherencia y realismo. Evaluaciones exhaustivas en diversos benchmarks de texto a imagen y edición de imágenes muestran que BLIP3o-NEXT supera el rendimiento de los modelos existentes.
English
We present BLIP3o-NEXT, a fully open-source foundation model in the BLIP3 series that advances the next frontier of native image generation. BLIP3o-NEXT unifies text-to-image generation and image editing within a single architecture, demonstrating strong image generation and image editing capabilities. In developing the state-of-the-art native image generation model, we identify four key insights: (1) Most architectural choices yield comparable performance; an architecture can be deemed effective provided it scales efficiently and supports fast inference; (2) The successful application of reinforcement learning can further push the frontier of native image generation; (3) Image editing still remains a challenging task, yet instruction following and the consistency between generated and reference images can be significantly enhanced through post-training and data engine; (4) Data quality and scale continue to be decisive factors that determine the upper bound of model performance. Building upon these insights, BLIP3o-NEXT leverages an Autoregressive + Diffusion architecture in which an autoregressive model first generates discrete image tokens conditioned on multimodal inputs, whose hidden states are then used as conditioning signals for a diffusion model to generate high-fidelity images. This architecture integrates the reasoning strength and instruction following of autoregressive models with the fine-detail rendering ability of diffusion models, achieving a new level of coherence and realism. Extensive evaluations of various text-to-image and image-editing benchmarks show that BLIP3o-NEXT achieves superior performance over existing models.
PDF202October 20, 2025