Seedream 2.0 : Un modèle de génération d'images bilingue natif chinois-anglais
Seedream 2.0: A Native Chinese-English Bilingual Image Generation Foundation Model
March 10, 2025
Auteurs: Lixue Gong, Xiaoxia Hou, Fanshi Li, Liang Li, Xiaochen Lian, Fei Liu, Liyang Liu, Wei Liu, Wei Lu, Yichun Shi, Shiqi Sun, Yu Tian, Zhi Tian, Peng Wang, Xun Wang, Ye Wang, Guofeng Wu, Jie Wu, Xin Xia, Xuefeng Xiao, Linjie Yang, Zhonghua Zhai, Xinyu Zhang, Qi Zhang, Yuwei Zhang, Shijia Zhao, Jianchao Yang, Weilin Huang
cs.AI
Résumé
L'avancée rapide des modèles de diffusion a catalysé des progrès remarquables dans le domaine de la génération d'images. Cependant, les modèles prédominants tels que Flux, SD3.5 et Midjourney continuent de rencontrer des problèmes tels que les biais du modèle, des capacités limitées de rendu de texte et une compréhension insuffisante des nuances culturelles chinoises. Pour pallier ces limitations, nous présentons Seedream 2.0, un modèle de base de génération d'images bilingue natif chinois-anglais qui excelle dans diverses dimensions, gérant habilement les invites textuelles en chinois et en anglais, et supportant la génération d'images et le rendu de texte bilingues. Nous avons développé un système de données puissant qui facilite l'intégration des connaissances, ainsi qu'un système de légendes qui équilibre la précision et la richesse des descriptions d'images. En particulier, Seedream est intégré à un grand modèle de langage bilingue auto-développé en tant qu'encodeur de texte, lui permettant d'apprendre des connaissances natives directement à partir de données massives. Cela lui permet de générer des images haute fidélité avec des nuances culturelles précises et des expressions esthétiques décrites en chinois ou en anglais. Par ailleurs, Glyph-Aligned ByT5 est appliqué pour un rendu de texte flexible au niveau des caractères, tandis qu'un Scaled ROPE généralise bien aux résolutions non entraînées. Des optimisations post-entraînement multi-phases, incluant des itérations de SFT et RLHF, améliorent encore les capacités globales. À travers des expérimentations approfondies, nous démontrons que Seedream 2.0 atteint des performances de pointe dans de multiples aspects, incluant le suivi des invites, l'esthétique, le rendu de texte et la correction structurelle. De plus, Seedream 2.0 a été optimisé à travers plusieurs itérations de RLHF pour aligner étroitement ses sorties avec les préférences humaines, comme en témoigne son score ELO exceptionnel. En outre, il peut être facilement adapté à un modèle d'édition d'images basé sur des instructions, tel que SeedEdit, avec une forte capacité d'édition qui équilibre le suivi des instructions et la cohérence de l'image.
English
Rapid advancement of diffusion models has catalyzed remarkable progress in
the field of image generation. However, prevalent models such as Flux, SD3.5
and Midjourney, still grapple with issues like model bias, limited text
rendering capabilities, and insufficient understanding of Chinese cultural
nuances. To address these limitations, we present Seedream 2.0, a native
Chinese-English bilingual image generation foundation model that excels across
diverse dimensions, which adeptly manages text prompt in both Chinese and
English, supporting bilingual image generation and text rendering. We develop a
powerful data system that facilitates knowledge integration, and a caption
system that balances the accuracy and richness for image description.
Particularly, Seedream is integrated with a self-developed bilingual large
language model as a text encoder, allowing it to learn native knowledge
directly from massive data. This enable it to generate high-fidelity images
with accurate cultural nuances and aesthetic expressions described in either
Chinese or English. Beside, Glyph-Aligned ByT5 is applied for flexible
character-level text rendering, while a Scaled ROPE generalizes well to
untrained resolutions. Multi-phase post-training optimizations, including SFT
and RLHF iterations, further improve the overall capability. Through extensive
experimentation, we demonstrate that Seedream 2.0 achieves state-of-the-art
performance across multiple aspects, including prompt-following, aesthetics,
text rendering, and structural correctness. Furthermore, Seedream 2.0 has been
optimized through multiple RLHF iterations to closely align its output with
human preferences, as revealed by its outstanding ELO score. In addition, it
can be readily adapted to an instruction-based image editing model, such as
SeedEdit, with strong editing capability that balances instruction-following
and image consistency.Summary
AI-Generated Summary