Z-Image: Ein effizientes Bildgenerierungs-Foundation-Modell mit Single-Stream-Diffusion-Transformer
Z-Image: An Efficient Image Generation Foundation Model with Single-Stream Diffusion Transformer
November 27, 2025
papers.authors: Z-Image Team, Huanqia Cai, Sihan Cao, Ruoyi Du, Peng Gao, Steven Hoi, Shijie Huang, Zhaohui Hou, Dengyang Jiang, Xin Jin, Liangchen Li, Zhen Li, Zhong-Yu Li, David Liu, Dongyang Liu, Junhan Shi, Qilong Wu, Feng Yu, Chi Zhang, Shifeng Zhang, Shilin Zhou
cs.AI
papers.abstract
Das Feld der leistungsstarken Bildgenerierungsmodelle wird derzeit von proprietären Systemen wie Nano Banana Pro und Seedream 4.0 dominiert. Führende Open-Source-Alternativen, darunter Qwen-Image, Hunyuan-Image-3.0 und FLUX.2, zeichnen sich durch massive Parameterzahlen (20B bis 80B) aus, was sie für Inferenz und Feinabstimmung auf Consumer-Hardware unpraktikabel macht. Um diese Lücke zu schließen, stellen wir Z-Image vor, ein effizientes generatives Basismodell mit 6B Parametern, das auf einer skalierbaren Single-Stream-Diffusion-Transformer-Architektur (S3-DiT) basiert und das Paradigma "Skalierung um jeden Preis" herausfordert. Durch systematische Optimierung des gesamten Modell-Lebenszyklus – von einer kuratierten Dateninfrastruktur bis hin zu einem optimierten Trainingscurriculum – schließen wir den vollständigen Trainingsworkflow in nur 314K H800-GPU-Stunden (ca. 630K US-Dollar) ab. Unser Few-Step-Distillationsschema mit Reward-Nachtraining ergibt weiterhin Z-Image-Turbo, das sowohl eine Inferenzlatenz im Subsekundenbereich auf einer Enterprise-H800-GPU als auch Kompatibilität mit Consumer-Hardware (<16GB VRAM) bietet. Zudem ermöglicht unser Omni-Pre-Training-Paradigma auch das effiziente Training von Z-Image-Edit, einem Bearbeitungsmodell mit beeindruckenden Instruction-Following-Fähigkeiten. Qualitative und quantitative Experimente zeigen, dass unser Modell in verschiedenen Dimensionen eine mit führenden Wettbewerbern vergleichbare oder diese übertreffende Leistung erzielt. Besonders bemerkenswert ist, dass Z-Image außergewöhnliche Fähigkeiten in der fotorealistischen Bildgenerierung und beim bilingualen Text-Rendering zeigt und Ergebnisse liefert, die mit Top-Commercial-Modellen konkurrieren, was demonstriert, dass State-of-the-Art-Resultate mit deutlich reduziertem Rechenaufwand erreichbar sind. Wir veröffentlichen unseren Code, unsere Gewichte und eine Online-Demo, um die Entwicklung zugänglicher, kostengünstiger und dennoch state-of-the-art generativer Modelle zu fördern.
English
The landscape of high-performance image generation models is currently dominated by proprietary systems, such as Nano Banana Pro and Seedream 4.0. Leading open-source alternatives, including Qwen-Image, Hunyuan-Image-3.0 and FLUX.2, are characterized by massive parameter counts (20B to 80B), making them impractical for inference, and fine-tuning on consumer-grade hardware. To address this gap, we propose Z-Image, an efficient 6B-parameter foundation generative model built upon a Scalable Single-Stream Diffusion Transformer (S3-DiT) architecture that challenges the "scale-at-all-costs" paradigm. By systematically optimizing the entire model lifecycle -- from a curated data infrastructure to a streamlined training curriculum -- we complete the full training workflow in just 314K H800 GPU hours (approx. $630K). Our few-step distillation scheme with reward post-training further yields Z-Image-Turbo, offering both sub-second inference latency on an enterprise-grade H800 GPU and compatibility with consumer-grade hardware (<16GB VRAM). Additionally, our omni-pre-training paradigm also enables efficient training of Z-Image-Edit, an editing model with impressive instruction-following capabilities. Both qualitative and quantitative experiments demonstrate that our model achieves performance comparable to or surpassing that of leading competitors across various dimensions. Most notably, Z-Image exhibits exceptional capabilities in photorealistic image generation and bilingual text rendering, delivering results that rival top-tier commercial models, thereby demonstrating that state-of-the-art results are achievable with significantly reduced computational overhead. We publicly release our code, weights, and online demo to foster the development of accessible, budget-friendly, yet state-of-the-art generative models.