Z-Image: un modello fondazionale efficiente per la generazione di immagini basato su un Diffusion Transformer a flusso singolo
Z-Image: An Efficient Image Generation Foundation Model with Single-Stream Diffusion Transformer
November 27, 2025
Autori: Z-Image Team, Huanqia Cai, Sihan Cao, Ruoyi Du, Peng Gao, Steven Hoi, Shijie Huang, Zhaohui Hou, Dengyang Jiang, Xin Jin, Liangchen Li, Zhen Li, Zhong-Yu Li, David Liu, Dongyang Liu, Junhan Shi, Qilong Wu, Feng Yu, Chi Zhang, Shifeng Zhang, Shilin Zhou
cs.AI
Abstract
L'attuale panorama dei modelli generativi di immagini ad alte prestazioni è dominato da sistemi proprietari come Nano Banana Pro e Seedream 4.0. Le principali alternative open-source, tra cui Qwen-Image, Hunyuan-Image-3.0 e FLUX.2, sono caratterizzate da un numero elevatissimo di parametri (da 20 a 80 miliardi), che le rende impraticabili per inferenza e fine-tuning su hardware consumer. Per colmare questa lacuna, proponiamo Z-Image, un modello generativo foundation efficiente da 6 miliardi di parametri, basato su un'architettura Scalable Single-Stream Diffusion Transformer (S3-DiT) che sfida il paradigma del "scale-at-all-costs". Ottimizzando sistematicamente l'intero ciclo di vita del modello – da un'infrastruttura dati curata a un percorso di training semplificato – completiamo l'intero flusso di addestramento in sole 314.000 ore GPU H800 (circa 630.000 dollari). Il nostro schema di distillazione a pochi passi con post-addestramento basato su reward produce inoltre Z-Image-Turbo, che offre sia una latenza di inferenza inferiore al secondo su una GPU H800 di livello enterprise sia compatibilità con hardware consumer (<16 GB di VRAM). Inoltre, il nostro paradigma di omni-pre-training consente anche l'addestramento efficiente di Z-Image-Edit, un modello di editing con impressionanti capacità di seguire istruzioni. Esperimenti qualitativi e quantitativi dimostrano che il nostro modello raggiunge prestazioni paragonabili o superiori a quelle dei principali competitor in varie dimensioni. Soprattutto, Z-Image mostra capacità eccezionali nella generazione di immagini fotorealistiche e nel rendering di testo bilingue, producendo risultati che rivaleggiano con i modelli commerciali di primo livello, dimostrando così che risultati all'avanguardia sono raggiungibili con un overhead computazionale significativamente ridotto. Rilasciamo pubblicamente il nostro codice, i pesi e una demo online per favorire lo sviluppo di modelli generativi accessibili, economici e allo stato dell'arte.
English
The landscape of high-performance image generation models is currently dominated by proprietary systems, such as Nano Banana Pro and Seedream 4.0. Leading open-source alternatives, including Qwen-Image, Hunyuan-Image-3.0 and FLUX.2, are characterized by massive parameter counts (20B to 80B), making them impractical for inference, and fine-tuning on consumer-grade hardware. To address this gap, we propose Z-Image, an efficient 6B-parameter foundation generative model built upon a Scalable Single-Stream Diffusion Transformer (S3-DiT) architecture that challenges the "scale-at-all-costs" paradigm. By systematically optimizing the entire model lifecycle -- from a curated data infrastructure to a streamlined training curriculum -- we complete the full training workflow in just 314K H800 GPU hours (approx. $630K). Our few-step distillation scheme with reward post-training further yields Z-Image-Turbo, offering both sub-second inference latency on an enterprise-grade H800 GPU and compatibility with consumer-grade hardware (<16GB VRAM). Additionally, our omni-pre-training paradigm also enables efficient training of Z-Image-Edit, an editing model with impressive instruction-following capabilities. Both qualitative and quantitative experiments demonstrate that our model achieves performance comparable to or surpassing that of leading competitors across various dimensions. Most notably, Z-Image exhibits exceptional capabilities in photorealistic image generation and bilingual text rendering, delivering results that rival top-tier commercial models, thereby demonstrating that state-of-the-art results are achievable with significantly reduced computational overhead. We publicly release our code, weights, and online demo to foster the development of accessible, budget-friendly, yet state-of-the-art generative models.