Z-Image: 単一ストリーム拡散トランスフォーマーによる効率的な画像生成基盤モデル
Z-Image: An Efficient Image Generation Foundation Model with Single-Stream Diffusion Transformer
November 27, 2025
著者: Z-Image Team, Huanqia Cai, Sihan Cao, Ruoyi Du, Peng Gao, Steven Hoi, Shijie Huang, Zhaohui Hou, Dengyang Jiang, Xin Jin, Liangchen Li, Zhen Li, Zhong-Yu Li, David Liu, Dongyang Liu, Junhan Shi, Qilong Wu, Feng Yu, Chi Zhang, Shifeng Zhang, Shilin Zhou
cs.AI
要旨
高性能画像生成モデルの現状は、Nano Banana ProやSeedream 4.0といったプロプライエタリなシステムが支配的です。Qwen-Image、Hunyuan-Image-3.0、FLUX.2などの主要なオープンソース代替モデルは、巨大なパラメータ数(200億から800億)を特徴とし、コンシューマー向けハードウェアでの推論やファインチューニングを非現実的なものにしています。この格差を埋めるため、我々は「規模拡大一辺倒」のパラダイムに挑戦する、スケーラブルなシングルストリーム拡散トランスフォーマー(S3-DiT)アーキテクチャに基づく効率的な60億パラメータ基盤生成モデル「Z-Image」を提案します。精選されたデータインフラから合理化された訓練カリキュラムまで、モデルライフサイクル全体を体系的に最適化することで、完全な訓練ワークフローをわずか31万4千H800 GPU時間(約63万米ドル)で完了させました。報酬による事後訓練を組み合わせた数ステップ蒸留スキームにより、Z-Image-Turboを開発し、エンタープライズ向けH800 GPUでのサブ秒レベルの推論遅延とコンシューマー向けハードウェア(16GB VRAM未満)との互換性を両立させています。さらに、我々のオムニ事前訓練パラダイムは、優れた指示追従能力を備えた編集モデルZ-Image-Editの効率的な訓練も可能にします。定性的および定量的実験の両方において、本モデルが様々な次元で主要競合モデルに匹敵あるいは凌駕する性能を達成することを実証しています。特にZ-Imageは、写真的画像生成と二言語テキスト描画において卓越した能力を示し、トップクラスの商用モデルと互角の結果を提供することで、計算コストを大幅に削減しながら最先端の結果が達成可能であることを実証しました。コード、重み、オンラインデモを公開し、アクセス可能で低コストかつ最先端の生成モデルの発展を促進します。
English
The landscape of high-performance image generation models is currently dominated by proprietary systems, such as Nano Banana Pro and Seedream 4.0. Leading open-source alternatives, including Qwen-Image, Hunyuan-Image-3.0 and FLUX.2, are characterized by massive parameter counts (20B to 80B), making them impractical for inference, and fine-tuning on consumer-grade hardware. To address this gap, we propose Z-Image, an efficient 6B-parameter foundation generative model built upon a Scalable Single-Stream Diffusion Transformer (S3-DiT) architecture that challenges the "scale-at-all-costs" paradigm. By systematically optimizing the entire model lifecycle -- from a curated data infrastructure to a streamlined training curriculum -- we complete the full training workflow in just 314K H800 GPU hours (approx. $630K). Our few-step distillation scheme with reward post-training further yields Z-Image-Turbo, offering both sub-second inference latency on an enterprise-grade H800 GPU and compatibility with consumer-grade hardware (<16GB VRAM). Additionally, our omni-pre-training paradigm also enables efficient training of Z-Image-Edit, an editing model with impressive instruction-following capabilities. Both qualitative and quantitative experiments demonstrate that our model achieves performance comparable to or surpassing that of leading competitors across various dimensions. Most notably, Z-Image exhibits exceptional capabilities in photorealistic image generation and bilingual text rendering, delivering results that rival top-tier commercial models, thereby demonstrating that state-of-the-art results are achievable with significantly reduced computational overhead. We publicly release our code, weights, and online demo to foster the development of accessible, budget-friendly, yet state-of-the-art generative models.