Seedream 2.0: Um Modelo de Base Nativo para Geração de Imagens Bilíngue Chinês-Inglês
Seedream 2.0: A Native Chinese-English Bilingual Image Generation Foundation Model
March 10, 2025
Autores: Lixue Gong, Xiaoxia Hou, Fanshi Li, Liang Li, Xiaochen Lian, Fei Liu, Liyang Liu, Wei Liu, Wei Lu, Yichun Shi, Shiqi Sun, Yu Tian, Zhi Tian, Peng Wang, Xun Wang, Ye Wang, Guofeng Wu, Jie Wu, Xin Xia, Xuefeng Xiao, Linjie Yang, Zhonghua Zhai, Xinyu Zhang, Qi Zhang, Yuwei Zhang, Shijia Zhao, Jianchao Yang, Weilin Huang
cs.AI
Resumo
O rápido avanço dos modelos de difusão catalisou progressos notáveis no campo da geração de imagens. No entanto, modelos prevalentes como Flux, SD3.5 e Midjourney ainda enfrentam problemas como viés do modelo, capacidades limitadas de renderização de texto e compreensão insuficiente das nuances culturais chinesas. Para abordar essas limitações, apresentamos o Seedream 2.0, um modelo de base nativo bilíngue chinês-inglês para geração de imagens que se destaca em diversas dimensões, gerenciando habilmente prompts de texto em chinês e inglês, suportando geração de imagens e renderização de texto bilíngues. Desenvolvemos um sistema de dados poderoso que facilita a integração de conhecimento e um sistema de legendas que equilibra a precisão e a riqueza na descrição de imagens. Particularmente, o Seedream é integrado com um grande modelo de linguagem bilíngue autodesenvolvido como codificador de texto, permitindo que ele aprenda conhecimento nativo diretamente de dados massivos. Isso permite que ele gere imagens de alta fidelidade com nuances culturais precisas e expressões estéticas descritas em chinês ou inglês. Além disso, o Glyph-Aligned ByT5 é aplicado para renderização flexível de texto em nível de caractere, enquanto um Scaled ROPE generaliza bem para resoluções não treinadas. Otimizações pós-treinamento em múltiplas fases, incluindo iterações de SFT e RLHF, melhoram ainda mais a capacidade geral. Através de experimentação extensiva, demonstramos que o Seedream 2.0 alcança desempenho de ponta em múltiplos aspectos, incluindo seguimento de prompts, estética, renderização de texto e correção estrutural. Além disso, o Seedream 2.0 foi otimizado através de múltiplas iterações de RLHF para alinhar de perto sua saída com as preferências humanas, conforme revelado por seu excelente score ELO. Adicionalmente, ele pode ser facilmente adaptado para um modelo de edição de imagens baseado em instruções, como o SeedEdit, com forte capacidade de edição que equilibra o seguimento de instruções e a consistência da imagem.
English
Rapid advancement of diffusion models has catalyzed remarkable progress in
the field of image generation. However, prevalent models such as Flux, SD3.5
and Midjourney, still grapple with issues like model bias, limited text
rendering capabilities, and insufficient understanding of Chinese cultural
nuances. To address these limitations, we present Seedream 2.0, a native
Chinese-English bilingual image generation foundation model that excels across
diverse dimensions, which adeptly manages text prompt in both Chinese and
English, supporting bilingual image generation and text rendering. We develop a
powerful data system that facilitates knowledge integration, and a caption
system that balances the accuracy and richness for image description.
Particularly, Seedream is integrated with a self-developed bilingual large
language model as a text encoder, allowing it to learn native knowledge
directly from massive data. This enable it to generate high-fidelity images
with accurate cultural nuances and aesthetic expressions described in either
Chinese or English. Beside, Glyph-Aligned ByT5 is applied for flexible
character-level text rendering, while a Scaled ROPE generalizes well to
untrained resolutions. Multi-phase post-training optimizations, including SFT
and RLHF iterations, further improve the overall capability. Through extensive
experimentation, we demonstrate that Seedream 2.0 achieves state-of-the-art
performance across multiple aspects, including prompt-following, aesthetics,
text rendering, and structural correctness. Furthermore, Seedream 2.0 has been
optimized through multiple RLHF iterations to closely align its output with
human preferences, as revealed by its outstanding ELO score. In addition, it
can be readily adapted to an instruction-based image editing model, such as
SeedEdit, with strong editing capability that balances instruction-following
and image consistency.Summary
AI-Generated Summary