BLIP3o-NEXT: 네이티브 이미지 생성의 새로운 지평
BLIP3o-NEXT: Next Frontier of Native Image Generation
October 17, 2025
저자: Jiuhai Chen, Le Xue, Zhiyang Xu, Xichen Pan, Shusheng Yang, Can Qin, An Yan, Honglu Zhou, Zeyuan Chen, Lifu Huang, Tianyi Zhou, Junnan Li, Silvio Savarese, Caiming Xiong, Ran Xu
cs.AI
초록
BLIP3 시리즈의 완전 오픈소스 기반 모델인 BLIP3o-NEXT를 소개하며, 이 모델은 차세대 네이티브 이미지 생성의 최전선을 개척합니다. BLIP3o-NEXT는 텍스트-이미지 생성과 이미지 편집을 단일 아키텍처 내에서 통합하여 강력한 이미지 생성 및 편집 능력을 보여줍니다. 최첨단 네이티브 이미지 생성 모델을 개발하는 과정에서 우리는 네 가지 핵심 통찰을 도출했습니다: (1) 대부분의 아키텍처 선택은 비슷한 성능을 제공하며, 효율적으로 확장되고 빠른 추론을 지원하는 아키텍처는 효과적이라고 볼 수 있습니다; (2) 강화 학습의 성공적인 적용은 네이티브 이미지 생성의 한계를 더욱 넓힐 수 있습니다; (3) 이미지 편집은 여전히 어려운 과제이지만, 사후 학습과 데이터 엔진을 통해 생성된 이미지와 참조 이미지 간의 일관성과 명령어 수행 능력을 크게 향상시킬 수 있습니다; (4) 데이터 품질과 규모는 모델 성능의 상한을 결정하는 결정적 요소로 남아 있습니다. 이러한 통찰을 바탕으로, BLIP3o-NEXT는 Autoregressive + Diffusion 아키텍처를 활용합니다. 여기서 자동회귀 모델은 먼저 다중 모달 입력에 조건화된 이산 이미지 토큰을 생성하고, 그 숨겨진 상태는 확산 모델의 조건 신호로 사용되어 고해상도 이미지를 생성합니다. 이 아키텍처는 자동회귀 모델의 추론 능력과 명령어 수행 능력을 확산 모델의 세밀한 디테일 렌더링 능력과 통합하여 새로운 수준의 일관성과 현실감을 달성합니다. 다양한 텍스트-이미지 및 이미지 편집 벤치마크에 대한 광범위한 평가를 통해 BLIP3o-NEXT가 기존 모델들을 뛰어넘는 우수한 성능을 보임을 확인했습니다.
English
We present BLIP3o-NEXT, a fully open-source foundation model in the BLIP3
series that advances the next frontier of native image generation. BLIP3o-NEXT
unifies text-to-image generation and image editing within a single
architecture, demonstrating strong image generation and image editing
capabilities. In developing the state-of-the-art native image generation model,
we identify four key insights: (1) Most architectural choices yield comparable
performance; an architecture can be deemed effective provided it scales
efficiently and supports fast inference; (2) The successful application of
reinforcement learning can further push the frontier of native image
generation; (3) Image editing still remains a challenging task, yet instruction
following and the consistency between generated and reference images can be
significantly enhanced through post-training and data engine; (4) Data quality
and scale continue to be decisive factors that determine the upper bound of
model performance. Building upon these insights, BLIP3o-NEXT leverages an
Autoregressive + Diffusion architecture in which an autoregressive model first
generates discrete image tokens conditioned on multimodal inputs, whose hidden
states are then used as conditioning signals for a diffusion model to generate
high-fidelity images. This architecture integrates the reasoning strength and
instruction following of autoregressive models with the fine-detail rendering
ability of diffusion models, achieving a new level of coherence and realism.
Extensive evaluations of various text-to-image and image-editing benchmarks
show that BLIP3o-NEXT achieves superior performance over existing models.