Seedream 2.0: 중국어-영어 이중 언어 이미지 생성 기반 모델
Seedream 2.0: A Native Chinese-English Bilingual Image Generation Foundation Model
March 10, 2025
저자: Lixue Gong, Xiaoxia Hou, Fanshi Li, Liang Li, Xiaochen Lian, Fei Liu, Liyang Liu, Wei Liu, Wei Lu, Yichun Shi, Shiqi Sun, Yu Tian, Zhi Tian, Peng Wang, Xun Wang, Ye Wang, Guofeng Wu, Jie Wu, Xin Xia, Xuefeng Xiao, Linjie Yang, Zhonghua Zhai, Xinyu Zhang, Qi Zhang, Yuwei Zhang, Shijia Zhao, Jianchao Yang, Weilin Huang
cs.AI
초록
확산 모델의 급속한 발전은 이미지 생성 분야에서 놀라운 진전을 촉진했습니다. 그러나 Flux, SD3.5, Midjourney와 같은 널리 사용되는 모델들은 여전히 모델 편향, 제한된 텍스트 렌더링 능력, 그리고 중국 문화적 뉘앙스에 대한 불충분한 이해와 같은 문제를 겪고 있습니다. 이러한 한계를 해결하기 위해, 우리는 Seedream 2.0을 제안합니다. 이는 중국어와 영어를 모두 지원하는 원어민 수준의 이중 언어 이미지 생성 기반 모델로, 다양한 차원에서 탁월한 성능을 보이며, 중국어와 영어 모두에서 텍스트 프롬프트를 능숙하게 처리하고 이중 언어 이미지 생성과 텍스트 렌더링을 지원합니다. 우리는 지식 통합을 용이하게 하는 강력한 데이터 시스템과 이미지 설명의 정확성과 풍부함을 균형 있게 유지하는 캡션 시스템을 개발했습니다. 특히, Seedream은 자체 개발한 이중 언어 대형 언어 모델을 텍스트 인코더로 통합하여 대규모 데이터로부터 직접 원어민 지식을 학습할 수 있도록 했습니다. 이를 통해 중국어나 영어로 기술된 정확한 문화적 뉘앙스와 미적 표현을 갖춘 고품질 이미지를 생성할 수 있습니다. 또한, Glyph-Aligned ByT5를 적용하여 유연한 문자 수준의 텍스트 렌더링을 가능하게 했으며, Scaled ROPE는 훈련되지 않은 해상도에서도 잘 일반화됩니다. SFT와 RLHF 반복을 포함한 다단계 사후 훈련 최적화는 전반적인 능력을 더욱 향상시켰습니다. 광범위한 실험을 통해, Seedream 2.0이 프롬프트 준수, 미학, 텍스트 렌더링, 구조적 정확성 등 여러 측면에서 최첨단 성능을 달성함을 입증했습니다. 더욱이, Seedream 2.0은 여러 RLHF 반복을 통해 최적화되어 인간의 선호도와 밀접하게 일치하는 출력을 생성하며, 이는 뛰어난 ELO 점수로 나타납니다. 또한, SeedEdit와 같은 명령 기반 이미지 편집 모델로 쉽게 적용할 수 있으며, 명령 준수와 이미지 일관성을 균형 있게 유지하는 강력한 편집 능력을 갖추고 있습니다.
English
Rapid advancement of diffusion models has catalyzed remarkable progress in
the field of image generation. However, prevalent models such as Flux, SD3.5
and Midjourney, still grapple with issues like model bias, limited text
rendering capabilities, and insufficient understanding of Chinese cultural
nuances. To address these limitations, we present Seedream 2.0, a native
Chinese-English bilingual image generation foundation model that excels across
diverse dimensions, which adeptly manages text prompt in both Chinese and
English, supporting bilingual image generation and text rendering. We develop a
powerful data system that facilitates knowledge integration, and a caption
system that balances the accuracy and richness for image description.
Particularly, Seedream is integrated with a self-developed bilingual large
language model as a text encoder, allowing it to learn native knowledge
directly from massive data. This enable it to generate high-fidelity images
with accurate cultural nuances and aesthetic expressions described in either
Chinese or English. Beside, Glyph-Aligned ByT5 is applied for flexible
character-level text rendering, while a Scaled ROPE generalizes well to
untrained resolutions. Multi-phase post-training optimizations, including SFT
and RLHF iterations, further improve the overall capability. Through extensive
experimentation, we demonstrate that Seedream 2.0 achieves state-of-the-art
performance across multiple aspects, including prompt-following, aesthetics,
text rendering, and structural correctness. Furthermore, Seedream 2.0 has been
optimized through multiple RLHF iterations to closely align its output with
human preferences, as revealed by its outstanding ELO score. In addition, it
can be readily adapted to an instruction-based image editing model, such as
SeedEdit, with strong editing capability that balances instruction-following
and image consistency.Summary
AI-Generated Summary