Z-Image: Un Modelo Fundacional Eficiente para Generación de Imágenes con Transformer de Difusión de Flujo Único
Z-Image: An Efficient Image Generation Foundation Model with Single-Stream Diffusion Transformer
November 27, 2025
Autores: Z-Image Team, Huanqia Cai, Sihan Cao, Ruoyi Du, Peng Gao, Steven Hoi, Shijie Huang, Zhaohui Hou, Dengyang Jiang, Xin Jin, Liangchen Li, Zhen Li, Zhong-Yu Li, David Liu, Dongyang Liu, Junhan Shi, Qilong Wu, Feng Yu, Chi Zhang, Shifeng Zhang, Shilin Zhou
cs.AI
Resumen
El panorama de los modelos de generación de imágenes de alto rendimiento está actualmente dominado por sistemas propietarios, como Nano Banana Pro y Seedream 4.0. Las principales alternativas de código abierto, incluyendo Qwen-Image, Hunyuan-Image-3.0 y FLUX.2, se caracterizan por sus recuentos masivos de parámetros (20B a 80B), lo que las hace impracticables para inferencia y ajuste fino en hardware de grado consumidor. Para abordar esta brecha, proponemos Z-Image, un modelo generativo base eficiente de 6B de parámetros construido sobre una arquitectura de Transformer de Difusión de Flujo Único Escalable (S3-DiT) que desafía el paradigma de "escala a cualquier costo". Mediante la optimización sistemática de todo el ciclo de vida del modelo —desde una infraestructura de datos curada hasta un plan de entrenamiento simplificado— completamos el flujo de trabajo de entrenamiento completo en solo 314K horas de GPU H800 (aproximadamente $630K). Nuestro esquema de destilación en pocos pasos con recompensa post-entrenamiento produce además Z-Image-Turbo, que ofrece tanto una latencia de inferencia inferior a un segundo en una GPU H800 de grado empresarial como compatibilidad con hardware de grado consumidor (<16GB de VRAM). Adicionalmente, nuestro paradigma de pre-entrenamiento ómni también permite el entrenamiento eficiente de Z-Image-Edit, un modelo de edición con capacidades impresionantes para seguir instrucciones. Experimentos cualitativos y cuantitativos demuestran que nuestro modelo logra un rendimiento comparable o superior al de los principales competidores en varias dimensiones. Más notablemente, Z-Image exhibe capacidades excepcionales en la generación de imágenes fotorrealistas y la representación de texto bilingüe, entregando resultados que rivalizan con los modelos comerciales de primer nivel, demostrando así que se pueden alcanzar resultados de vanguardia con una sobrecarga computacional significativamente reducida. Publicamos nuestro código, pesos y demostración en línea para fomentar el desarrollo de modelos generativos accesibles, económicos y de última generación.
English
The landscape of high-performance image generation models is currently dominated by proprietary systems, such as Nano Banana Pro and Seedream 4.0. Leading open-source alternatives, including Qwen-Image, Hunyuan-Image-3.0 and FLUX.2, are characterized by massive parameter counts (20B to 80B), making them impractical for inference, and fine-tuning on consumer-grade hardware. To address this gap, we propose Z-Image, an efficient 6B-parameter foundation generative model built upon a Scalable Single-Stream Diffusion Transformer (S3-DiT) architecture that challenges the "scale-at-all-costs" paradigm. By systematically optimizing the entire model lifecycle -- from a curated data infrastructure to a streamlined training curriculum -- we complete the full training workflow in just 314K H800 GPU hours (approx. $630K). Our few-step distillation scheme with reward post-training further yields Z-Image-Turbo, offering both sub-second inference latency on an enterprise-grade H800 GPU and compatibility with consumer-grade hardware (<16GB VRAM). Additionally, our omni-pre-training paradigm also enables efficient training of Z-Image-Edit, an editing model with impressive instruction-following capabilities. Both qualitative and quantitative experiments demonstrate that our model achieves performance comparable to or surpassing that of leading competitors across various dimensions. Most notably, Z-Image exhibits exceptional capabilities in photorealistic image generation and bilingual text rendering, delivering results that rival top-tier commercial models, thereby demonstrating that state-of-the-art results are achievable with significantly reduced computational overhead. We publicly release our code, weights, and online demo to foster the development of accessible, budget-friendly, yet state-of-the-art generative models.