ChatPaper.aiChatPaper

Seedream 3.0 技術レポート

Seedream 3.0 Technical Report

April 15, 2025
著者: Yu Gao, Lixue Gong, Qiushan Guo, Xiaoxia Hou, Zhichao Lai, Fanshi Li, Liang Li, Xiaochen Lian, Chao Liao, Liyang Liu, Wei Liu, Yichun Shi, Shiqi Sun, Yu Tian, Zhi Tian, Peng Wang, Rui Wang, Xuanda Wang, Xun Wang, Ye Wang, Guofeng Wu, Jie Wu, Xin Xia, Xuefeng Xiao, Zhonghua Zhai, Xinyu Zhang, Qi Zhang, Yuwei Zhang, Shijia Zhao, Jianchao Yang, Weilin Huang
cs.AI

要旨

私たちは、高性能な中国語-英語バイリンガル画像生成基盤モデルであるSeedream 3.0を紹介します。Seedream 2.0の既存の課題に対処するため、複雑なプロンプトとの整合性、細かいタイポグラフィ生成、視覚的美観と忠実度の最適化、限られた画像解像度など、いくつかの技術的改善を開発しました。具体的には、Seedream 3.0の進歩は、データ構築からモデル展開までのパイプライン全体にわたる改善に起因しています。データ層では、欠陥を意識したトレーニングパラダイムと双軸協調データサンプリングフレームワークを使用してデータセットを倍増させました。さらに、事前トレーニング段階では、混合解像度トレーニング、クロスモダリティRoPE、表現整合性損失、解像度を意識したタイムステップサンプリングなど、いくつかの効果的な技術を採用しました。ポストトレーニング段階では、SFTで多様な美的キャプションを使用し、スケーリングを伴うVLMベースの報酬モデルを活用することで、人間の好みに良く合致した出力を実現しました。さらに、Seedream 3.0は新しい加速パラダイムを先駆けています。一貫したノイズ期待値と重要性を意識したタイムステップサンプリングを採用することで、画像品質を維持しながら4倍から8倍の高速化を達成しました。Seedream 3.0は、Seedream 2.0と比較して大幅な改善を示しています:全体的な能力が向上し、特にプロフェッショナルなタイポグラフィ生成に重要な複雑な中国語文字のテキストレンダリングが強化されています。さらに、ネイティブの高解像度出力(最大2K)を提供し、高い視覚品質の画像を生成することが可能です。
English
We present Seedream 3.0, a high-performance Chinese-English bilingual image generation foundation model. We develop several technical improvements to address existing challenges in Seedream 2.0, including alignment with complicated prompts, fine-grained typography generation, suboptimal visual aesthetics and fidelity, and limited image resolutions. Specifically, the advancements of Seedream 3.0 stem from improvements across the entire pipeline, from data construction to model deployment. At the data stratum, we double the dataset using a defect-aware training paradigm and a dual-axis collaborative data-sampling framework. Furthermore, we adopt several effective techniques such as mixed-resolution training, cross-modality RoPE, representation alignment loss, and resolution-aware timestep sampling in the pre-training phase. During the post-training stage, we utilize diversified aesthetic captions in SFT, and a VLM-based reward model with scaling, thereby achieving outputs that well align with human preferences. Furthermore, Seedream 3.0 pioneers a novel acceleration paradigm. By employing consistent noise expectation and importance-aware timestep sampling, we achieve a 4 to 8 times speedup while maintaining image quality. Seedream 3.0 demonstrates significant improvements over Seedream 2.0: it enhances overall capabilities, in particular for text-rendering in complicated Chinese characters which is important to professional typography generation. In addition, it provides native high-resolution output (up to 2K), allowing it to generate images with high visual quality.

Summary

AI-Generated Summary

PDF526April 16, 2025