Rapport Technique de Seedream 3.0
Seedream 3.0 Technical Report
April 15, 2025
Auteurs: Yu Gao, Lixue Gong, Qiushan Guo, Xiaoxia Hou, Zhichao Lai, Fanshi Li, Liang Li, Xiaochen Lian, Chao Liao, Liyang Liu, Wei Liu, Yichun Shi, Shiqi Sun, Yu Tian, Zhi Tian, Peng Wang, Rui Wang, Xuanda Wang, Xun Wang, Ye Wang, Guofeng Wu, Jie Wu, Xin Xia, Xuefeng Xiao, Zhonghua Zhai, Xinyu Zhang, Qi Zhang, Yuwei Zhang, Shijia Zhao, Jianchao Yang, Weilin Huang
cs.AI
Résumé
Nous présentons Seedream 3.0, un modèle de base bilingue chinois-anglais de génération d'images à haute performance. Nous avons développé plusieurs améliorations techniques pour résoudre les défis existants de Seedream 2.0, notamment l'alignement avec des prompts complexes, la génération de typographie fine, l'esthétique visuelle et la fidélité sous-optimales, ainsi que les résolutions d'images limitées. Plus précisément, les avancées de Seedream 3.0 découlent d'améliorations apportées à l'ensemble du pipeline, de la construction des données au déploiement du modèle. Au niveau des données, nous avons doublé le jeu de données en utilisant un paradigme d'entraînement conscient des défauts et un cadre de sampling collaboratif à double axe. De plus, nous avons adopté plusieurs techniques efficaces telles que l'entraînement à résolution mixte, le RoPE intermodal, la perte d'alignement des représentations et le sampling des pas de temps en fonction de la résolution lors de la phase de pré-entraînement. Durant l'étape de post-entraînement, nous utilisons des légendes esthétiques diversifiées dans le SFT, ainsi qu'un modèle de récompense basé sur un VLM avec mise à l'échelle, permettant ainsi d'obtenir des sorties bien alignées avec les préférences humaines. Par ailleurs, Seedream 3.0 innove avec un nouveau paradigme d'accélération. En employant une attente de bruit cohérente et un sampling des pas de temps sensible à l'importance, nous obtenons une accélération de 4 à 8 fois tout en maintenant la qualité des images. Seedream 3.0 démontre des améliorations significatives par rapport à Seedream 2.0 : il renforce les capacités globales, en particulier pour le rendu de texte en caractères chinois complexes, essentiel à la génération de typographie professionnelle. De plus, il offre une sortie native en haute résolution (jusqu'à 2K), permettant de générer des images de haute qualité visuelle.
English
We present Seedream 3.0, a high-performance Chinese-English bilingual image
generation foundation model. We develop several technical improvements to
address existing challenges in Seedream 2.0, including alignment with
complicated prompts, fine-grained typography generation, suboptimal visual
aesthetics and fidelity, and limited image resolutions. Specifically, the
advancements of Seedream 3.0 stem from improvements across the entire pipeline,
from data construction to model deployment. At the data stratum, we double the
dataset using a defect-aware training paradigm and a dual-axis collaborative
data-sampling framework. Furthermore, we adopt several effective techniques
such as mixed-resolution training, cross-modality RoPE, representation
alignment loss, and resolution-aware timestep sampling in the pre-training
phase. During the post-training stage, we utilize diversified aesthetic
captions in SFT, and a VLM-based reward model with scaling, thereby achieving
outputs that well align with human preferences. Furthermore, Seedream 3.0
pioneers a novel acceleration paradigm. By employing consistent noise
expectation and importance-aware timestep sampling, we achieve a 4 to 8 times
speedup while maintaining image quality. Seedream 3.0 demonstrates significant
improvements over Seedream 2.0: it enhances overall capabilities, in particular
for text-rendering in complicated Chinese characters which is important to
professional typography generation. In addition, it provides native
high-resolution output (up to 2K), allowing it to generate images with high
visual quality.Summary
AI-Generated Summary