Seedream 3.0 기술 보고서
Seedream 3.0 Technical Report
April 15, 2025
저자: Yu Gao, Lixue Gong, Qiushan Guo, Xiaoxia Hou, Zhichao Lai, Fanshi Li, Liang Li, Xiaochen Lian, Chao Liao, Liyang Liu, Wei Liu, Yichun Shi, Shiqi Sun, Yu Tian, Zhi Tian, Peng Wang, Rui Wang, Xuanda Wang, Xun Wang, Ye Wang, Guofeng Wu, Jie Wu, Xin Xia, Xuefeng Xiao, Zhonghua Zhai, Xinyu Zhang, Qi Zhang, Yuwei Zhang, Shijia Zhao, Jianchao Yang, Weilin Huang
cs.AI
초록
우리는 고성능 중영 이중 언어 이미지 생성 기반 모델인 Seedream 3.0을 소개합니다. Seedream 2.0에서 존재하던 문제점들을 해결하기 위해 여러 기술적 개선을 도입하였습니다. 이는 복잡한 프롬프트와의 정렬, 세밀한 타이포그래피 생성, 미흡한 시각적 미학과 충실도, 그리고 제한된 이미지 해상도 등을 포함합니다. 구체적으로, Seedream 3.0의 발전은 데이터 구성부터 모델 배포에 이르는 전체 파이프라인 전반에 걸친 개선에서 비롯됩니다. 데이터 계층에서는 결함 인식 훈련 패러다임과 이중 축 협업 데이터 샘플링 프레임워크를 통해 데이터셋을 두 배로 확장했습니다. 또한, 혼합 해상도 훈련, 교차 모달리티 RoPE, 표현 정렬 손실, 해상도 인식 타임스텝 샘플링 등 여러 효과적인 기법을 사전 훈련 단계에서 채택했습니다. 사후 훈련 단계에서는 SFT에서 다양한 미학적 캡션을 활용하고, 스케일링이 적용된 VLM 기반 보상 모델을 사용함으로써 인간의 선호도와 잘 맞는 출력을 달성했습니다. 더 나아가, Seedream 3.0은 새로운 가속 패러다임을 선도합니다. 일관된 노이즈 기대치와 중요도 인식 타임스텝 샘플링을 통해 이미지 품질을 유지하면서 4~8배의 속도 향상을 달성했습니다. Seedream 3.0은 Seedream 2.0 대비 전반적인 능력이 크게 향상되었으며, 특히 전문 타이포그래피 생성에 중요한 복잡한 한자 텍스트 렌더링에서 두드러진 개선을 보입니다. 또한, 최대 2K까지의 네이티브 고해상도 출력을 제공하여 높은 시각적 품질의 이미지를 생성할 수 있습니다.
English
We present Seedream 3.0, a high-performance Chinese-English bilingual image
generation foundation model. We develop several technical improvements to
address existing challenges in Seedream 2.0, including alignment with
complicated prompts, fine-grained typography generation, suboptimal visual
aesthetics and fidelity, and limited image resolutions. Specifically, the
advancements of Seedream 3.0 stem from improvements across the entire pipeline,
from data construction to model deployment. At the data stratum, we double the
dataset using a defect-aware training paradigm and a dual-axis collaborative
data-sampling framework. Furthermore, we adopt several effective techniques
such as mixed-resolution training, cross-modality RoPE, representation
alignment loss, and resolution-aware timestep sampling in the pre-training
phase. During the post-training stage, we utilize diversified aesthetic
captions in SFT, and a VLM-based reward model with scaling, thereby achieving
outputs that well align with human preferences. Furthermore, Seedream 3.0
pioneers a novel acceleration paradigm. By employing consistent noise
expectation and importance-aware timestep sampling, we achieve a 4 to 8 times
speedup while maintaining image quality. Seedream 3.0 demonstrates significant
improvements over Seedream 2.0: it enhances overall capabilities, in particular
for text-rendering in complicated Chinese characters which is important to
professional typography generation. In addition, it provides native
high-resolution output (up to 2K), allowing it to generate images with high
visual quality.Summary
AI-Generated Summary