ChatPaper.aiChatPaper

Z-Image: Эффективная базовая модель генерации изображений на основе диффузионного трансформера с однонаправленным потоком

Z-Image: An Efficient Image Generation Foundation Model with Single-Stream Diffusion Transformer

November 27, 2025
Авторы: Z-Image Team, Huanqia Cai, Sihan Cao, Ruoyi Du, Peng Gao, Steven Hoi, Shijie Huang, Zhaohui Hou, Dengyang Jiang, Xin Jin, Liangchen Li, Zhen Li, Zhong-Yu Li, David Liu, Dongyang Liu, Junhan Shi, Qilong Wu, Feng Yu, Chi Zhang, Shifeng Zhang, Shilin Zhou
cs.AI

Аннотация

Современный ландшафт моделей генерации изображений высокого качества в настоящее время доминируется проприетарными системами, такими как Nano Banana Pro и Seedream 4.0. Ведущие открытые альтернативы, включая Qwen-Image, Hunyuan-Image-3.0 и FLUX.2, характеризуются огромным количеством параметров (от 20 до 80 миллиардов), что делает их непрактичными для инференса и тонкой настройки на потребительском оборудовании. Чтобы заполнить этот пробел, мы представляем Z-Image — эффективную базовую генеративную модель с 6 миллиардами параметров, построенную на основе масштабируемой диффузионной трансформерной архитектуры с единым потоком (S3-DiT), которая бросает вызов парадигме «масштабирования любой ценой». Системно оптимизируя полный жизненный цикл модели — от курируемой инфраструктуры данных до оптимизированного учебного плана — мы завершаем полный рабочий процесс обучения всего за 314 тысяч GPU-часов на H800 (приблизительно $630 тыс.). Наша схема дистилляции за несколько шагов с последующим пост-тренингом по вознаграждению дополнительно позволяет получить Z-Image-Turbo, который обеспечивает как задержку инференса менее секунды на GPU корпоративного класса H800, так и совместимость с потребительским оборудованием (<16 ГБ VRAM). Кроме того, наша парадигма универсального предварительного обучения также позволяет эффективно обучать Z-Image-Edit — модель для редактирования с впечатляющими способностями к следованию инструкциям. Качественные и количественные эксперименты демонстрируют, что наша модель достигает производительности, сравнимой или превосходящей ведущих конкурентов в различных измерениях. Особенно примечательно, что Z-Image демонстрирует исключительные способности в области фотореалистичной генерации изображений и двуязычного рендеринга текста, обеспечивая результаты, сопоставимые с топовыми коммерческими моделями, тем самым доказывая, что передовые результаты достижимы при значительно сниженных вычислительных затратах. Мы публично выпускаем наш код, веса моделей и онлайн-демо для стимулирования разработки доступных, экономичных, но современных генеративных моделей.
English
The landscape of high-performance image generation models is currently dominated by proprietary systems, such as Nano Banana Pro and Seedream 4.0. Leading open-source alternatives, including Qwen-Image, Hunyuan-Image-3.0 and FLUX.2, are characterized by massive parameter counts (20B to 80B), making them impractical for inference, and fine-tuning on consumer-grade hardware. To address this gap, we propose Z-Image, an efficient 6B-parameter foundation generative model built upon a Scalable Single-Stream Diffusion Transformer (S3-DiT) architecture that challenges the "scale-at-all-costs" paradigm. By systematically optimizing the entire model lifecycle -- from a curated data infrastructure to a streamlined training curriculum -- we complete the full training workflow in just 314K H800 GPU hours (approx. $630K). Our few-step distillation scheme with reward post-training further yields Z-Image-Turbo, offering both sub-second inference latency on an enterprise-grade H800 GPU and compatibility with consumer-grade hardware (<16GB VRAM). Additionally, our omni-pre-training paradigm also enables efficient training of Z-Image-Edit, an editing model with impressive instruction-following capabilities. Both qualitative and quantitative experiments demonstrate that our model achieves performance comparable to or surpassing that of leading competitors across various dimensions. Most notably, Z-Image exhibits exceptional capabilities in photorealistic image generation and bilingual text rendering, delivering results that rival top-tier commercial models, thereby demonstrating that state-of-the-art results are achievable with significantly reduced computational overhead. We publicly release our code, weights, and online demo to foster the development of accessible, budget-friendly, yet state-of-the-art generative models.
PDF731December 2, 2025