Informe Técnico de Seedream 3.0
Seedream 3.0 Technical Report
April 15, 2025
Autores: Yu Gao, Lixue Gong, Qiushan Guo, Xiaoxia Hou, Zhichao Lai, Fanshi Li, Liang Li, Xiaochen Lian, Chao Liao, Liyang Liu, Wei Liu, Yichun Shi, Shiqi Sun, Yu Tian, Zhi Tian, Peng Wang, Rui Wang, Xuanda Wang, Xun Wang, Ye Wang, Guofeng Wu, Jie Wu, Xin Xia, Xuefeng Xiao, Zhonghua Zhai, Xinyu Zhang, Qi Zhang, Yuwei Zhang, Shijia Zhao, Jianchao Yang, Weilin Huang
cs.AI
Resumen
Presentamos Seedream 3.0, un modelo base de generación de imágenes bilingüe chino-inglés de alto rendimiento. Desarrollamos varias mejoras técnicas para abordar los desafíos existentes en Seedream 2.0, incluyendo la alineación con indicaciones complejas, la generación de tipografía detallada, la estética visual y fidelidad subóptimas, y las resoluciones de imagen limitadas. Específicamente, los avances de Seedream 3.0 provienen de mejoras en toda la pipeline, desde la construcción de datos hasta la implementación del modelo. En el estrato de datos, duplicamos el conjunto de datos utilizando un paradigma de entrenamiento consciente de defectos y un marco de muestreo de datos colaborativo de doble eje. Además, adoptamos varias técnicas efectivas como el entrenamiento de resolución mixta, RoPE de cross-modalidad, pérdida de alineación de representación y muestreo de pasos de tiempo consciente de la resolución en la fase de pre-entrenamiento. Durante la etapa de post-entrenamiento, utilizamos descripciones estéticas diversificadas en SFT, y un modelo de recompensa basado en VLM con escalado, logrando así salidas que se alinean bien con las preferencias humanas. Además, Seedream 3.0 introduce un nuevo paradigma de aceleración. Al emplear una expectativa de ruido consistente y un muestreo de pasos de tiempo consciente de la importancia, logramos una aceleración de 4 a 8 veces manteniendo la calidad de la imagen. Seedream 3.0 demuestra mejoras significativas sobre Seedream 2.0: mejora las capacidades generales, en particular para la representación de texto en caracteres chinos complejos, lo cual es importante para la generación de tipografía profesional. Además, proporciona una salida nativa de alta resolución (hasta 2K), permitiendo generar imágenes con alta calidad visual.
English
We present Seedream 3.0, a high-performance Chinese-English bilingual image
generation foundation model. We develop several technical improvements to
address existing challenges in Seedream 2.0, including alignment with
complicated prompts, fine-grained typography generation, suboptimal visual
aesthetics and fidelity, and limited image resolutions. Specifically, the
advancements of Seedream 3.0 stem from improvements across the entire pipeline,
from data construction to model deployment. At the data stratum, we double the
dataset using a defect-aware training paradigm and a dual-axis collaborative
data-sampling framework. Furthermore, we adopt several effective techniques
such as mixed-resolution training, cross-modality RoPE, representation
alignment loss, and resolution-aware timestep sampling in the pre-training
phase. During the post-training stage, we utilize diversified aesthetic
captions in SFT, and a VLM-based reward model with scaling, thereby achieving
outputs that well align with human preferences. Furthermore, Seedream 3.0
pioneers a novel acceleration paradigm. By employing consistent noise
expectation and importance-aware timestep sampling, we achieve a 4 to 8 times
speedup while maintaining image quality. Seedream 3.0 demonstrates significant
improvements over Seedream 2.0: it enhances overall capabilities, in particular
for text-rendering in complicated Chinese characters which is important to
professional typography generation. In addition, it provides native
high-resolution output (up to 2K), allowing it to generate images with high
visual quality.Summary
AI-Generated Summary