Z-Image: Een efficiënt fundamentmodel voor beeldgeneratie met een single-stream diffusie-transformer
Z-Image: An Efficient Image Generation Foundation Model with Single-Stream Diffusion Transformer
November 27, 2025
Auteurs: Z-Image Team, Huanqia Cai, Sihan Cao, Ruoyi Du, Peng Gao, Steven Hoi, Shijie Huang, Zhaohui Hou, Dengyang Jiang, Xin Jin, Liangchen Li, Zhen Li, Zhong-Yu Li, David Liu, Dongyang Liu, Junhan Shi, Qilong Wu, Feng Yu, Chi Zhang, Shifeng Zhang, Shilin Zhou
cs.AI
Samenvatting
Het landschap van hoogwaardige beeldgeneratiemodellen wordt momenteel gedomineerd door propriëtaire systemen, zoals Nano Banana Pro en Seedream 4.0. Toonaangevende open-source alternatieven, waaronder Qwen-Image, Hunyuan-Image-3.0 en FLUX.2, worden gekenmerkt door enorme parameteraantallen (20B tot 80B), wat ze onpraktisch maakt voor inferentie en fine-tuning op consumentenhardware. Om deze kloof te dichten, stellen we Z-Image voor, een efficiënt generatief basismodel met 6B parameters, gebouwd op een schaalbare Single-Stream Diffusion Transformer (S3-DiT) architectuur die het "schaal-ten-koste-van-alles" paradigma uitdaagt. Door de volledige modellevenscyclus systematisch te optimaliseren – van een zorgvuldig samengestelde datainfrastructuur tot een gestroomlijnd trainingscurriculum – voltooien we de volledige trainingsworkflow in slechts 314K H800 GPU-uren (ongeveer $630K). Ons few-step distillatieschema met reward post-training levert verder Z-Image-Turbo op, dat zowel een inferentielatentie van minder dan een seconde op een enterprise-grade H800 GPU biedt als compatibiliteit met consumentenhardware (<16GB VRAM). Bovendien stelt ons omni-pre-training paradigma ook de efficiënte training van Z-Image-Edit mogelijk, een bewerkmodel met indrukwekkende instructievolgende capaciteiten. Zowel kwalitatieve als kwantitatieve experimenten tonen aan dat ons model prestaties bereikt die vergelijkbaar zijn met of die van toonaangevende concurrenten overtreffen in verschillende dimensies. Opmerkelijk is dat Z-Image uitzonderlijke capaciteiten vertoont in fotorealistische beeldgeneratie en tweetalige tekstweergave, met resultaten die concurreren met topcommerciële modellen, waarmee wordt aangetoond dat state-of-the-art resultaten bereikbaar zijn met aanzienlijk verminderde rekenkosten. We maken onze code, gewichten en onlinedemo openbaar om de ontwikkeling van toegankelijke, budgetvriendelijke en toch state-of-the-art generatieve modellen te bevorderen.
English
The landscape of high-performance image generation models is currently dominated by proprietary systems, such as Nano Banana Pro and Seedream 4.0. Leading open-source alternatives, including Qwen-Image, Hunyuan-Image-3.0 and FLUX.2, are characterized by massive parameter counts (20B to 80B), making them impractical for inference, and fine-tuning on consumer-grade hardware. To address this gap, we propose Z-Image, an efficient 6B-parameter foundation generative model built upon a Scalable Single-Stream Diffusion Transformer (S3-DiT) architecture that challenges the "scale-at-all-costs" paradigm. By systematically optimizing the entire model lifecycle -- from a curated data infrastructure to a streamlined training curriculum -- we complete the full training workflow in just 314K H800 GPU hours (approx. $630K). Our few-step distillation scheme with reward post-training further yields Z-Image-Turbo, offering both sub-second inference latency on an enterprise-grade H800 GPU and compatibility with consumer-grade hardware (<16GB VRAM). Additionally, our omni-pre-training paradigm also enables efficient training of Z-Image-Edit, an editing model with impressive instruction-following capabilities. Both qualitative and quantitative experiments demonstrate that our model achieves performance comparable to or surpassing that of leading competitors across various dimensions. Most notably, Z-Image exhibits exceptional capabilities in photorealistic image generation and bilingual text rendering, delivering results that rival top-tier commercial models, thereby demonstrating that state-of-the-art results are achievable with significantly reduced computational overhead. We publicly release our code, weights, and online demo to foster the development of accessible, budget-friendly, yet state-of-the-art generative models.