Технический отчет Seedream 3.0
Seedream 3.0 Technical Report
April 15, 2025
Авторы: Yu Gao, Lixue Gong, Qiushan Guo, Xiaoxia Hou, Zhichao Lai, Fanshi Li, Liang Li, Xiaochen Lian, Chao Liao, Liyang Liu, Wei Liu, Yichun Shi, Shiqi Sun, Yu Tian, Zhi Tian, Peng Wang, Rui Wang, Xuanda Wang, Xun Wang, Ye Wang, Guofeng Wu, Jie Wu, Xin Xia, Xuefeng Xiao, Zhonghua Zhai, Xinyu Zhang, Qi Zhang, Yuwei Zhang, Shijia Zhao, Jianchao Yang, Weilin Huang
cs.AI
Аннотация
Мы представляем Seedream 3.0 — высокопроизводительную двуязычную (китайско-английскую) модель генерации изображений, основанную на фундаментальных принципах. Мы разработали ряд технических улучшений для решения существующих проблем Seedream 2.0, включая согласование со сложными запросами, генерацию детализированной типографики, улучшение визуальной эстетики и точности, а также повышение разрешения изображений. В частности, прогресс Seedream 3.0 обусловлен улучшениями на всех этапах, от построения данных до развертывания модели. На уровне данных мы удвоили набор данных, используя подход к обучению с учетом дефектов и двухосевую совместную структуру выборки данных. Кроме того, в фазе предварительного обучения мы применяем несколько эффективных методов, таких как обучение с использованием смешанного разрешения, кросс-модальный RoPE, функция потерь для согласования представлений и выборка временных шагов с учетом разрешения. На этапе пост-обучения мы используем разнообразные эстетические описания в SFT (Supervised Fine-Tuning) и масштабируемую модель вознаграждения на основе VLM (Vision-Language Model), что позволяет достичь результатов, хорошо согласованных с предпочтениями человека. Кроме того, Seedream 3.0 представляет собой новую парадигму ускорения. Благодаря использованию согласованного ожидания шума и выборки временных шагов с учетом важности, мы достигаем ускорения в 4–8 раз при сохранении качества изображений. Seedream 3.0 демонстрирует значительные улучшения по сравнению с Seedream 2.0: она повышает общие возможности, особенно в области рендеринга сложных китайских символов, что важно для профессиональной генерации типографики. Кроме того, она обеспечивает нативное высокое разрешение (до 2K), позволяя создавать изображения с высокой визуальной качеством.
English
We present Seedream 3.0, a high-performance Chinese-English bilingual image
generation foundation model. We develop several technical improvements to
address existing challenges in Seedream 2.0, including alignment with
complicated prompts, fine-grained typography generation, suboptimal visual
aesthetics and fidelity, and limited image resolutions. Specifically, the
advancements of Seedream 3.0 stem from improvements across the entire pipeline,
from data construction to model deployment. At the data stratum, we double the
dataset using a defect-aware training paradigm and a dual-axis collaborative
data-sampling framework. Furthermore, we adopt several effective techniques
such as mixed-resolution training, cross-modality RoPE, representation
alignment loss, and resolution-aware timestep sampling in the pre-training
phase. During the post-training stage, we utilize diversified aesthetic
captions in SFT, and a VLM-based reward model with scaling, thereby achieving
outputs that well align with human preferences. Furthermore, Seedream 3.0
pioneers a novel acceleration paradigm. By employing consistent noise
expectation and importance-aware timestep sampling, we achieve a 4 to 8 times
speedup while maintaining image quality. Seedream 3.0 demonstrates significant
improvements over Seedream 2.0: it enhances overall capabilities, in particular
for text-rendering in complicated Chinese characters which is important to
professional typography generation. In addition, it provides native
high-resolution output (up to 2K), allowing it to generate images with high
visual quality.Summary
AI-Generated Summary