Seedream 3.0 Technisch Rapport
Seedream 3.0 Technical Report
April 15, 2025
Auteurs: Yu Gao, Lixue Gong, Qiushan Guo, Xiaoxia Hou, Zhichao Lai, Fanshi Li, Liang Li, Xiaochen Lian, Chao Liao, Liyang Liu, Wei Liu, Yichun Shi, Shiqi Sun, Yu Tian, Zhi Tian, Peng Wang, Rui Wang, Xuanda Wang, Xun Wang, Ye Wang, Guofeng Wu, Jie Wu, Xin Xia, Xuefeng Xiao, Zhonghua Zhai, Xinyu Zhang, Qi Zhang, Yuwei Zhang, Shijia Zhao, Jianchao Yang, Weilin Huang
cs.AI
Samenvatting
We presenteren Seedream 3.0, een hoogwaardig Chinees-Engels tweetalig basismodel voor beeldgeneratie. We hebben verschillende technische verbeteringen ontwikkeld om bestaande uitdagingen in Seedream 2.0 aan te pakken, waaronder afstemming op complexe prompts, fijnmazige typografiegeneratie, suboptimale visuele esthetiek en trouw, en beperkte beeldresoluties. Specifiek zijn de vooruitgangen van Seedream 3.0 het resultaat van verbeteringen in de gehele pijplijn, van dataconstructie tot modelimplementatie. Op het dataniveau verdubbelen we de dataset met behulp van een defectbewust trainingsparadigma en een dual-axis collaboratief data-sampling framework. Bovendien passen we verschillende effectieve technieken toe, zoals mixed-resolution training, cross-modality RoPE, representation alignment loss, en resolution-aware timestep sampling in de pre-trainingsfase. Tijdens de post-trainingsfase maken we gebruik van gediversifieerde esthetische bijschriften in SFT, en een VLM-gebaseerd beloningsmodel met schaling, waardoor uitvoeringen worden bereikt die goed aansluiten bij menselijke voorkeuren. Daarnaast introduceert Seedream 3.0 een nieuw versnellingsparadigma. Door consistente ruisverwachting en importance-aware timestep sampling toe te passen, bereiken we een versnelling van 4 tot 8 keer terwijl de beeldkwaliteit behouden blijft. Seedream 3.0 toont significante verbeteringen ten opzichte van Seedream 2.0: het versterkt de algehele capaciteiten, met name voor tekstweergave in complexe Chinese karakters, wat belangrijk is voor professionele typografiegeneratie. Daarnaast biedt het native hoge-resolutie uitvoer (tot 2K), waardoor het beelden met hoge visuele kwaliteit kan genereren.
English
We present Seedream 3.0, a high-performance Chinese-English bilingual image
generation foundation model. We develop several technical improvements to
address existing challenges in Seedream 2.0, including alignment with
complicated prompts, fine-grained typography generation, suboptimal visual
aesthetics and fidelity, and limited image resolutions. Specifically, the
advancements of Seedream 3.0 stem from improvements across the entire pipeline,
from data construction to model deployment. At the data stratum, we double the
dataset using a defect-aware training paradigm and a dual-axis collaborative
data-sampling framework. Furthermore, we adopt several effective techniques
such as mixed-resolution training, cross-modality RoPE, representation
alignment loss, and resolution-aware timestep sampling in the pre-training
phase. During the post-training stage, we utilize diversified aesthetic
captions in SFT, and a VLM-based reward model with scaling, thereby achieving
outputs that well align with human preferences. Furthermore, Seedream 3.0
pioneers a novel acceleration paradigm. By employing consistent noise
expectation and importance-aware timestep sampling, we achieve a 4 to 8 times
speedup while maintaining image quality. Seedream 3.0 demonstrates significant
improvements over Seedream 2.0: it enhances overall capabilities, in particular
for text-rendering in complicated Chinese characters which is important to
professional typography generation. In addition, it provides native
high-resolution output (up to 2K), allowing it to generate images with high
visual quality.Summary
AI-Generated Summary