Rapport Technique de Seedream 3.0

Résumé

Nous présentons Seedream 3.0, un modèle de base bilingue chinois-anglais de génération d'images à haute performance. Nous avons développé plusieurs améliorations techniques pour résoudre les défis existants de Seedream 2.0, notamment l'alignement avec des prompts complexes, la génération de typographie fine, l'esthétique visuelle et la fidélité sous-optimales, ainsi que les résolutions d'images limitées. Plus précisément, les avancées de Seedream 3.0 découlent d'améliorations apportées à l'ensemble du pipeline, de la construction des données au déploiement du modèle. Au niveau des données, nous avons doublé le jeu de données en utilisant un paradigme d'entraînement conscient des défauts et un cadre de sampling collaboratif à double axe. De plus, nous avons adopté plusieurs techniques efficaces telles que l'entraînement à résolution mixte, le RoPE intermodal, la perte d'alignement des représentations et le sampling des pas de temps en fonction de la résolution lors de la phase de pré-entraînement. Durant l'étape de post-entraînement, nous utilisons des légendes esthétiques diversifiées dans le SFT, ainsi qu'un modèle de récompense basé sur un VLM avec mise à l'échelle, permettant ainsi d'obtenir des sorties bien alignées avec les préférences humaines. Par ailleurs, Seedream 3.0 innove avec un nouveau paradigme d'accélération. En employant une attente de bruit cohérente et un sampling des pas de temps sensible à l'importance, nous obtenons une accélération de 4 à 8 fois tout en maintenant la qualité des images. Seedream 3.0 démontre des améliorations significatives par rapport à Seedream 2.0 : il renforce les capacités globales, en particulier pour le rendu de texte en caractères chinois complexes, essentiel à la génération de typographie professionnelle. De plus, il offre une sortie native en haute résolution (jusqu'à 2K), permettant de générer des images de haute qualité visuelle.

English

We present Seedream 3.0, a high-performance Chinese-English bilingual image generation foundation model. We develop several technical improvements to address existing challenges in Seedream 2.0, including alignment with complicated prompts, fine-grained typography generation, suboptimal visual aesthetics and fidelity, and limited image resolutions. Specifically, the advancements of Seedream 3.0 stem from improvements across the entire pipeline, from data construction to model deployment. At the data stratum, we double the dataset using a defect-aware training paradigm and a dual-axis collaborative data-sampling framework. Furthermore, we adopt several effective techniques such as mixed-resolution training, cross-modality RoPE, representation alignment loss, and resolution-aware timestep sampling in the pre-training phase. During the post-training stage, we utilize diversified aesthetic captions in SFT, and a VLM-based reward model with scaling, thereby achieving outputs that well align with human preferences. Furthermore, Seedream 3.0 pioneers a novel acceleration paradigm. By employing consistent noise expectation and importance-aware timestep sampling, we achieve a 4 to 8 times speedup while maintaining image quality. Seedream 3.0 demonstrates significant improvements over Seedream 2.0: it enhances overall capabilities, in particular for text-rendering in complicated Chinese characters which is important to professional typography generation. In addition, it provides native high-resolution output (up to 2K), allowing it to generate images with high visual quality.