ChatPaper.aiChatPaper

Z-Image: Um Modelo de Base Eficiente para Geração de Imagens com Transformer de Difusão de Fluxo Único

Z-Image: An Efficient Image Generation Foundation Model with Single-Stream Diffusion Transformer

November 27, 2025
Autores: Z-Image Team, Huanqia Cai, Sihan Cao, Ruoyi Du, Peng Gao, Steven Hoi, Shijie Huang, Zhaohui Hou, Dengyang Jiang, Xin Jin, Liangchen Li, Zhen Li, Zhong-Yu Li, David Liu, Dongyang Liu, Junhan Shi, Qilong Wu, Feng Yu, Chi Zhang, Shifeng Zhang, Shilin Zhou
cs.AI

Resumo

O cenário atual de modelos de geração de imagens de alto desempenho é dominado por sistemas proprietários, como o Nano Banana Pro e o Seedream 4.0. As principais alternativas de código aberto, incluindo Qwen-Image, Hunyuan-Image-3.0 e FLUX.2, são caracterizadas por contagens massivas de parâmetros (20B a 80B), tornando-as impraticáveis para inferência e *fine-tuning* em hardware de nível consumidor. Para preencher esta lacuna, propomos o Z-Image, um modelo generativo de base eficiente com 6B de parâmetros, construído sobre uma arquitetura *Scalable Single-Stream Diffusion Transformer* (S3-DiT) que desafia o paradigma do "escalonamento a qualquer custo". Otimizando sistematicamente todo o ciclo de vida do modelo – desde uma infraestrutura de dados curada até um currículo de treinamento simplificado – concluímos o fluxo de trabalho completo de treinamento em apenas 314K horas de GPU H800 (aproximadamente US$ 630K). Nosso esquema de destilação em poucos passos com pós-treinamento por recompensa produz ainda o Z-Image-Turbo, oferecendo tanto latência de inferência submilissegundo em uma GPU H800 de nível empresarial quanto compatibilidade com hardware de nível consumidor (<16GB de VRAM). Adicionalmente, nosso paradigma de pré-treinamento *omni* também permite o treinamento eficiente do Z-Image-Edit, um modelo de edição com capacidades impressionantes de seguimento de instruções. Experimentos qualitativos e quantitativos demonstram que nosso modelo alcança desempenho comparável ou superior ao dos principais concorrentes em várias dimensões. Mais notavelmente, o Z-Image exibe capacidades excepcionais em geração de imagens fotorrealistas e renderização de texto bilíngue, entregando resultados que rivalizam com modelos comerciais de primeira linha, demonstrando assim que resultados de última geração são alcançáveis com uma sobrecarga computacional significativamente reduzida. Disponibilizamos publicamente nosso código, pesos e demonstração online para fomentar o desenvolvimento de modelos generativos acessíveis, econômicos e ainda assim de última geração.
English
The landscape of high-performance image generation models is currently dominated by proprietary systems, such as Nano Banana Pro and Seedream 4.0. Leading open-source alternatives, including Qwen-Image, Hunyuan-Image-3.0 and FLUX.2, are characterized by massive parameter counts (20B to 80B), making them impractical for inference, and fine-tuning on consumer-grade hardware. To address this gap, we propose Z-Image, an efficient 6B-parameter foundation generative model built upon a Scalable Single-Stream Diffusion Transformer (S3-DiT) architecture that challenges the "scale-at-all-costs" paradigm. By systematically optimizing the entire model lifecycle -- from a curated data infrastructure to a streamlined training curriculum -- we complete the full training workflow in just 314K H800 GPU hours (approx. $630K). Our few-step distillation scheme with reward post-training further yields Z-Image-Turbo, offering both sub-second inference latency on an enterprise-grade H800 GPU and compatibility with consumer-grade hardware (<16GB VRAM). Additionally, our omni-pre-training paradigm also enables efficient training of Z-Image-Edit, an editing model with impressive instruction-following capabilities. Both qualitative and quantitative experiments demonstrate that our model achieves performance comparable to or surpassing that of leading competitors across various dimensions. Most notably, Z-Image exhibits exceptional capabilities in photorealistic image generation and bilingual text rendering, delivering results that rival top-tier commercial models, thereby demonstrating that state-of-the-art results are achievable with significantly reduced computational overhead. We publicly release our code, weights, and online demo to foster the development of accessible, budget-friendly, yet state-of-the-art generative models.
PDF2407March 7, 2026