Z-Image : Un modèle fondament de génération d'images efficace basé sur un transformeur de diffusion à flux unique
Z-Image: An Efficient Image Generation Foundation Model with Single-Stream Diffusion Transformer
November 27, 2025
papers.authors: Z-Image Team, Huanqia Cai, Sihan Cao, Ruoyi Du, Peng Gao, Steven Hoi, Shijie Huang, Zhaohui Hou, Dengyang Jiang, Xin Jin, Liangchen Li, Zhen Li, Zhong-Yu Li, David Liu, Dongyang Liu, Junhan Shi, Qilong Wu, Feng Yu, Chi Zhang, Shifeng Zhang, Shilin Zhou
cs.AI
papers.abstract
Le paysage des modèles de génération d'images haute performance est actuellement dominé par des systèmes propriétaires, tels que Nano Banana Pro et Seedream 4.0. Les principales alternatives open-source, incluant Qwen-Image, Hunyuan-Image-3.0 et FLUX.2, se caractérisent par des nombres de paramètres massifs (de 20 à 80 milliards), les rendant peu pratiques pour l'inférence et le fine-tuning sur du matériel grand public. Pour combler cette lacune, nous proposons Z-Image, un modèle génératif fondateur efficace de 6 milliards de paramètres, construit sur une architecture de Transformeur de Diffusion à Flux Unique et Évolutif (S3-DiT), qui remet en question le paradigme de la « mise à l'échelle à tout prix ». En optimisant systématiquement l'ensemble du cycle de vie du modèle – depuis une infrastructure de données soigneusement constituée jusqu'à un processus d'entraînement rationalisé – nous achevons le workflow d'entraînement complet en seulement 314 000 heures GPU H800 (environ 630 000 $). Notre schéma de distillation en peu d'étapes, combiné à un post-entraînement par récompense, donne également naissance à Z-Image-Turbo, offrant à la fois une latence d'inférence inférieure à la seconde sur un GPU H800 de niveau entreprise et une compatibilité avec le matériel grand public (<16 Go de VRAM). De plus, notre paradigme d'omni-pré-entraînement permet également l'entraînement efficace de Z-Image-Edit, un modèle d'édition aux capacités impressionnantes de suivi d'instructions. Des expériences qualitatives et quantitatives démontrent que notre modèle atteint des performances comparables ou supérieures à celles des principaux concurrents sur diverses dimensions. Plus notable encore, Z-Image présente des capacités exceptionnelles en génération d'images photoréalistes et en rendu de texte bilingue, produisant des résultats rivalisant avec les modèles commerciaux de premier plan, démontrant ainsi que des résultats à la pointe de l'état de l'art sont atteignables avec une empreinte computationnelle significativement réduite. Nous rendons publics notre code, nos poids et une démonstration en ligne pour favoriser le développement de modèles génératifs accessibles, économiques, mais néanmoins à la pointe de l'état de l'art.
English
The landscape of high-performance image generation models is currently dominated by proprietary systems, such as Nano Banana Pro and Seedream 4.0. Leading open-source alternatives, including Qwen-Image, Hunyuan-Image-3.0 and FLUX.2, are characterized by massive parameter counts (20B to 80B), making them impractical for inference, and fine-tuning on consumer-grade hardware. To address this gap, we propose Z-Image, an efficient 6B-parameter foundation generative model built upon a Scalable Single-Stream Diffusion Transformer (S3-DiT) architecture that challenges the "scale-at-all-costs" paradigm. By systematically optimizing the entire model lifecycle -- from a curated data infrastructure to a streamlined training curriculum -- we complete the full training workflow in just 314K H800 GPU hours (approx. $630K). Our few-step distillation scheme with reward post-training further yields Z-Image-Turbo, offering both sub-second inference latency on an enterprise-grade H800 GPU and compatibility with consumer-grade hardware (<16GB VRAM). Additionally, our omni-pre-training paradigm also enables efficient training of Z-Image-Edit, an editing model with impressive instruction-following capabilities. Both qualitative and quantitative experiments demonstrate that our model achieves performance comparable to or surpassing that of leading competitors across various dimensions. Most notably, Z-Image exhibits exceptional capabilities in photorealistic image generation and bilingual text rendering, delivering results that rival top-tier commercial models, thereby demonstrating that state-of-the-art results are achievable with significantly reduced computational overhead. We publicly release our code, weights, and online demo to foster the development of accessible, budget-friendly, yet state-of-the-art generative models.