ChatPaper.aiChatPaper

Z-Image: 단일 스트림 확산 트랜스포머 기반 효율적인 이미지 생성 파운데이션 모델

Z-Image: An Efficient Image Generation Foundation Model with Single-Stream Diffusion Transformer

November 27, 2025
저자: Z-Image Team, Huanqia Cai, Sihan Cao, Ruoyi Du, Peng Gao, Steven Hoi, Shijie Huang, Zhaohui Hou, Dengyang Jiang, Xin Jin, Liangchen Li, Zhen Li, Zhong-Yu Li, David Liu, Dongyang Liu, Junhan Shi, Qilong Wu, Feng Yu, Chi Zhang, Shifeng Zhang, Shilin Zhou
cs.AI

초록

고성능 이미지 생성 모델 분야는 현재 Nano Banana Pro 및 Seedream 4.0과 같은 독점 시스템이 주류를 이루고 있습니다. Qwen-Image, Hunyuan-Image-3.0, FLUX.2 등의 주요 오픈소스 대안들은 방대한 매개변수 규모(200억~800억 개)를 특징으로 하여, 일반 소비자용 하드웨어에서의 추론 및 미세 조정이 실질적으로 불가능한 상황입니다. 이러한 격차를 해소하기 위해 본 논문은 '무조건적인 규모 확장' 패러다임에 도전하는 확장 가능 단일 스트림 디퓨전 트랜스포머(S3-DiT) 아키텍처 기반의 효율적인 60억 매개변수 기반 생성 모델인 Z-Image를 제안합니다. 정제된 데이터 인프라부터 효율화된 훈련 과정에 이르기까지 모델 전체 수명 주기를 체계적으로 최적화함으로써, 전체 훈련 워크플로를 단 314K H800 GPU 시간(약 63만 달러) 만에 완료합니다. 보상 사후 훈련을 결합한 저희의 few-step 증류 기법은 더 나아가 기업용 H800 GPU에서 초 단위 미만의 추론 지연 시간을 제공하며 소비자용 하드웨어(VRAM 16GB 미만)와도 호환되는 Z-Image-Turbo를 산출합니다. 또한, 본 논문의 범용 사전 훈련 패러다임은 뛰어난 지시어 수행 능력을 가진 편집 모델인 Z-Image-Edit의 효율적인 훈련도 가능하게 합니다. 정성적 및 정량적 실험 결과, 본 모델이 다양한 차원에서 선두 경쟁사들과 필적하거나 이를 능가하는 성능을 달성함을 입증합니다. 특히 Z-Image는 사실적 이미지 생성 및 한영 이중 언어 텍스트 렌더링 분야에서 탁월한 능력을 보여주며, 최상위 상용 모델에 버금가는 결과를 제공함으로써 최첨단 결과물이 훨씬 감소된 계산 비용으로도 달성 가능함을 입증합니다. 본 논문은 접근성 높고 비용 효율적이면서도 최첨단인 생성 모델 개발의 발전을 촉진하기 위해 코드, 가중치 및 온라인 데모를 공개합니다.
English
The landscape of high-performance image generation models is currently dominated by proprietary systems, such as Nano Banana Pro and Seedream 4.0. Leading open-source alternatives, including Qwen-Image, Hunyuan-Image-3.0 and FLUX.2, are characterized by massive parameter counts (20B to 80B), making them impractical for inference, and fine-tuning on consumer-grade hardware. To address this gap, we propose Z-Image, an efficient 6B-parameter foundation generative model built upon a Scalable Single-Stream Diffusion Transformer (S3-DiT) architecture that challenges the "scale-at-all-costs" paradigm. By systematically optimizing the entire model lifecycle -- from a curated data infrastructure to a streamlined training curriculum -- we complete the full training workflow in just 314K H800 GPU hours (approx. $630K). Our few-step distillation scheme with reward post-training further yields Z-Image-Turbo, offering both sub-second inference latency on an enterprise-grade H800 GPU and compatibility with consumer-grade hardware (<16GB VRAM). Additionally, our omni-pre-training paradigm also enables efficient training of Z-Image-Edit, an editing model with impressive instruction-following capabilities. Both qualitative and quantitative experiments demonstrate that our model achieves performance comparable to or surpassing that of leading competitors across various dimensions. Most notably, Z-Image exhibits exceptional capabilities in photorealistic image generation and bilingual text rendering, delivering results that rival top-tier commercial models, thereby demonstrating that state-of-the-art results are achievable with significantly reduced computational overhead. We publicly release our code, weights, and online demo to foster the development of accessible, budget-friendly, yet state-of-the-art generative models.
PDF731December 2, 2025