Seedream 2.0: 中国語-英語ネイティブバイリンガル画像生成基盤モデル
Seedream 2.0: A Native Chinese-English Bilingual Image Generation Foundation Model
March 10, 2025
著者: Lixue Gong, Xiaoxia Hou, Fanshi Li, Liang Li, Xiaochen Lian, Fei Liu, Liyang Liu, Wei Liu, Wei Lu, Yichun Shi, Shiqi Sun, Yu Tian, Zhi Tian, Peng Wang, Xun Wang, Ye Wang, Guofeng Wu, Jie Wu, Xin Xia, Xuefeng Xiao, Linjie Yang, Zhonghua Zhai, Xinyu Zhang, Qi Zhang, Yuwei Zhang, Shijia Zhao, Jianchao Yang, Weilin Huang
cs.AI
要旨
拡散モデルの急速な進展は、画像生成分野において目覚ましい進歩を促してきました。しかし、Flux、SD3.5、Midjourneyなどの主流モデルは、モデルのバイアス、テキストレンダリング能力の限界、中国文化のニュアンスに対する理解不足といった課題に依然として直面しています。これらの制約を克服するため、我々はSeedream 2.0を提案します。これは、中国語と英語のネイティブなバイリンガル画像生成基盤モデルであり、多様な次元で優れた性能を発揮します。特に、中国語と英語の両方でのテキストプロンプトの適切な処理を可能にし、バイリンガル画像生成とテキストレンダリングをサポートします。我々は、知識統合を促進する強力なデータシステムと、画像記述の正確性と豊かさをバランスさせるキャプションシステムを開発しました。特に、Seedreamは、独自開発のバイリンガル大規模言語モデルをテキストエンコーダとして統合しており、大量のデータから直接ネイティブな知識を学習することができます。これにより、中国語または英語で記述された文化的ニュアンスや美的表現を正確に反映した高忠実度画像を生成することが可能です。さらに、Glyph-Aligned ByT5を適用して柔軟な文字レベルでのテキストレンダリングを実現し、Scaled ROPEは未学習の解像度にもうまく一般化します。SFTやRLHFの反復を含む多段階のポストトレーニング最適化により、全体的な能力がさらに向上します。広範な実験を通じて、Seedream 2.0がプロンプト追従性、美的感覚、テキストレンダリング、構造的正確性の複数の側面で最先端の性能を達成することを実証しました。さらに、Seedream 2.0は複数のRLHF反復を通じて最適化され、その出力が人間の好みに密接に一致するように調整されており、その優れたELOスコアがそれを裏付けています。加えて、SeedEditのような指示ベースの画像編集モデルに容易に適応可能であり、指示追従と画像の一貫性をバランスさせる強力な編集能力を備えています。
English
Rapid advancement of diffusion models has catalyzed remarkable progress in
the field of image generation. However, prevalent models such as Flux, SD3.5
and Midjourney, still grapple with issues like model bias, limited text
rendering capabilities, and insufficient understanding of Chinese cultural
nuances. To address these limitations, we present Seedream 2.0, a native
Chinese-English bilingual image generation foundation model that excels across
diverse dimensions, which adeptly manages text prompt in both Chinese and
English, supporting bilingual image generation and text rendering. We develop a
powerful data system that facilitates knowledge integration, and a caption
system that balances the accuracy and richness for image description.
Particularly, Seedream is integrated with a self-developed bilingual large
language model as a text encoder, allowing it to learn native knowledge
directly from massive data. This enable it to generate high-fidelity images
with accurate cultural nuances and aesthetic expressions described in either
Chinese or English. Beside, Glyph-Aligned ByT5 is applied for flexible
character-level text rendering, while a Scaled ROPE generalizes well to
untrained resolutions. Multi-phase post-training optimizations, including SFT
and RLHF iterations, further improve the overall capability. Through extensive
experimentation, we demonstrate that Seedream 2.0 achieves state-of-the-art
performance across multiple aspects, including prompt-following, aesthetics,
text rendering, and structural correctness. Furthermore, Seedream 2.0 has been
optimized through multiple RLHF iterations to closely align its output with
human preferences, as revealed by its outstanding ELO score. In addition, it
can be readily adapted to an instruction-based image editing model, such as
SeedEdit, with strong editing capability that balances instruction-following
and image consistency.Summary
AI-Generated Summary