Relatório Técnico do Seedream 3.0
Seedream 3.0 Technical Report
April 15, 2025
Autores: Yu Gao, Lixue Gong, Qiushan Guo, Xiaoxia Hou, Zhichao Lai, Fanshi Li, Liang Li, Xiaochen Lian, Chao Liao, Liyang Liu, Wei Liu, Yichun Shi, Shiqi Sun, Yu Tian, Zhi Tian, Peng Wang, Rui Wang, Xuanda Wang, Xun Wang, Ye Wang, Guofeng Wu, Jie Wu, Xin Xia, Xuefeng Xiao, Zhonghua Zhai, Xinyu Zhang, Qi Zhang, Yuwei Zhang, Shijia Zhao, Jianchao Yang, Weilin Huang
cs.AI
Resumo
Apresentamos o Seedream 3.0, um modelo de base de geração de imagens bilíngue chinês-inglês de alto desempenho. Desenvolvemos várias melhorias técnicas para abordar os desafios existentes no Seedream 2.0, incluindo alinhamento com prompts complexos, geração de tipografia refinada, estética visual e fidelidade subótimas, e resoluções de imagem limitadas. Especificamente, os avanços do Seedream 3.0 decorrem de melhorias em todo o pipeline, desde a construção de dados até a implantação do modelo. No estrato de dados, dobramos o conjunto de dados utilizando um paradigma de treinamento consciente de defeitos e uma estrutura de amostragem de dados colaborativa de eixo duplo. Além disso, adotamos várias técnicas eficazes, como treinamento de resolução mista, RoPE de cross-modalidade, perda de alinhamento de representação e amostragem de timestep consciente da resolução na fase de pré-treinamento. Durante a etapa de pós-treinamento, utilizamos legendas estéticas diversificadas em SFT e um modelo de recompensa baseado em VLM com escalonamento, alcançando assim saídas que se alinham bem com as preferências humanas. Além disso, o Seedream 3.0 introduz um novo paradigma de aceleração. Ao empregar expectativa de ruído consistente e amostragem de timestep consciente da importância, alcançamos uma aceleração de 4 a 8 vezes enquanto mantemos a qualidade da imagem. O Seedream 3.0 demonstra melhorias significativas em relação ao Seedream 2.0: ele aprimora as capacidades gerais, em particular para a renderização de texto em caracteres chineses complexos, o que é importante para a geração de tipografia profissional. Além disso, ele oferece saída nativa de alta resolução (até 2K), permitindo a geração de imagens com alta qualidade visual.
English
We present Seedream 3.0, a high-performance Chinese-English bilingual image
generation foundation model. We develop several technical improvements to
address existing challenges in Seedream 2.0, including alignment with
complicated prompts, fine-grained typography generation, suboptimal visual
aesthetics and fidelity, and limited image resolutions. Specifically, the
advancements of Seedream 3.0 stem from improvements across the entire pipeline,
from data construction to model deployment. At the data stratum, we double the
dataset using a defect-aware training paradigm and a dual-axis collaborative
data-sampling framework. Furthermore, we adopt several effective techniques
such as mixed-resolution training, cross-modality RoPE, representation
alignment loss, and resolution-aware timestep sampling in the pre-training
phase. During the post-training stage, we utilize diversified aesthetic
captions in SFT, and a VLM-based reward model with scaling, thereby achieving
outputs that well align with human preferences. Furthermore, Seedream 3.0
pioneers a novel acceleration paradigm. By employing consistent noise
expectation and importance-aware timestep sampling, we achieve a 4 to 8 times
speedup while maintaining image quality. Seedream 3.0 demonstrates significant
improvements over Seedream 2.0: it enhances overall capabilities, in particular
for text-rendering in complicated Chinese characters which is important to
professional typography generation. In addition, it provides native
high-resolution output (up to 2K), allowing it to generate images with high
visual quality.Summary
AI-Generated Summary