Seedream 2.0: Un modelo fundacional de generación de imágenes bilingüe nativo chino-inglés
Seedream 2.0: A Native Chinese-English Bilingual Image Generation Foundation Model
March 10, 2025
Autores: Lixue Gong, Xiaoxia Hou, Fanshi Li, Liang Li, Xiaochen Lian, Fei Liu, Liyang Liu, Wei Liu, Wei Lu, Yichun Shi, Shiqi Sun, Yu Tian, Zhi Tian, Peng Wang, Xun Wang, Ye Wang, Guofeng Wu, Jie Wu, Xin Xia, Xuefeng Xiao, Linjie Yang, Zhonghua Zhai, Xinyu Zhang, Qi Zhang, Yuwei Zhang, Shijia Zhao, Jianchao Yang, Weilin Huang
cs.AI
Resumen
El rápido avance de los modelos de difusión ha catalizado un progreso notable en el campo de la generación de imágenes. Sin embargo, modelos prevalentes como Flux, SD3.5 y Midjourney aún enfrentan problemas como el sesgo del modelo, capacidades limitadas de renderizado de texto y una comprensión insuficiente de los matices culturales chinos. Para abordar estas limitaciones, presentamos Seedream 2.0, un modelo base de generación de imágenes bilingüe nativo chino-inglés que sobresale en diversas dimensiones, gestionando hábilmente indicaciones de texto tanto en chino como en inglés, y apoyando la generación de imágenes y el renderizado de texto bilingües. Desarrollamos un sistema de datos potente que facilita la integración de conocimiento, y un sistema de subtítulos que equilibra la precisión y la riqueza en la descripción de imágenes. En particular, Seedream está integrado con un modelo de lenguaje grande bilingüe desarrollado internamente como codificador de texto, permitiéndole aprender conocimiento nativo directamente de datos masivos. Esto le permite generar imágenes de alta fidelidad con matices culturales precisos y expresiones estéticas descritas en chino o inglés. Además, se aplica Glyph-Aligned ByT5 para un renderizado de texto flexible a nivel de caracteres, mientras que un Scaled ROPE generaliza bien a resoluciones no entrenadas. Optimizaciones posteriores al entrenamiento en múltiples fases, incluyendo iteraciones de SFT y RLHF, mejoran aún más la capacidad general. A través de una experimentación extensa, demostramos que Seedream 2.0 alcanza un rendimiento de vanguardia en múltiples aspectos, incluyendo seguimiento de indicaciones, estética, renderizado de texto y corrección estructural. Además, Seedream 2.0 ha sido optimizado mediante múltiples iteraciones de RLHF para alinear estrechamente su salida con las preferencias humanas, como lo revela su destacada puntuación ELO. Adicionalmente, puede adaptarse fácilmente a un modelo de edición de imágenes basado en instrucciones, como SeedEdit, con una fuerte capacidad de edición que equilibra el seguimiento de instrucciones y la consistencia de la imagen.
English
Rapid advancement of diffusion models has catalyzed remarkable progress in
the field of image generation. However, prevalent models such as Flux, SD3.5
and Midjourney, still grapple with issues like model bias, limited text
rendering capabilities, and insufficient understanding of Chinese cultural
nuances. To address these limitations, we present Seedream 2.0, a native
Chinese-English bilingual image generation foundation model that excels across
diverse dimensions, which adeptly manages text prompt in both Chinese and
English, supporting bilingual image generation and text rendering. We develop a
powerful data system that facilitates knowledge integration, and a caption
system that balances the accuracy and richness for image description.
Particularly, Seedream is integrated with a self-developed bilingual large
language model as a text encoder, allowing it to learn native knowledge
directly from massive data. This enable it to generate high-fidelity images
with accurate cultural nuances and aesthetic expressions described in either
Chinese or English. Beside, Glyph-Aligned ByT5 is applied for flexible
character-level text rendering, while a Scaled ROPE generalizes well to
untrained resolutions. Multi-phase post-training optimizations, including SFT
and RLHF iterations, further improve the overall capability. Through extensive
experimentation, we demonstrate that Seedream 2.0 achieves state-of-the-art
performance across multiple aspects, including prompt-following, aesthetics,
text rendering, and structural correctness. Furthermore, Seedream 2.0 has been
optimized through multiple RLHF iterations to closely align its output with
human preferences, as revealed by its outstanding ELO score. In addition, it
can be readily adapted to an instruction-based image editing model, such as
SeedEdit, with strong editing capability that balances instruction-following
and image consistency.Summary
AI-Generated Summary