Seedream 2.0: Un Modello Fondamentale per la Generazione di Immagini Bilingue Cinese-Inglese Nativo
Seedream 2.0: A Native Chinese-English Bilingual Image Generation Foundation Model
March 10, 2025
Autori: Lixue Gong, Xiaoxia Hou, Fanshi Li, Liang Li, Xiaochen Lian, Fei Liu, Liyang Liu, Wei Liu, Wei Lu, Yichun Shi, Shiqi Sun, Yu Tian, Zhi Tian, Peng Wang, Xun Wang, Ye Wang, Guofeng Wu, Jie Wu, Xin Xia, Xuefeng Xiao, Linjie Yang, Zhonghua Zhai, Xinyu Zhang, Qi Zhang, Yuwei Zhang, Shijia Zhao, Jianchao Yang, Weilin Huang
cs.AI
Abstract
Il rapido avanzamento dei modelli di diffusione ha catalizzato progressi significativi nel campo della generazione di immagini. Tuttavia, modelli prevalenti come Flux, SD3.5 e Midjourney continuano a confrontarsi con problematiche quali il bias del modello, capacità limitate di rendering del testo e una comprensione insufficiente delle sfumature culturali cinesi. Per affrontare queste limitazioni, presentiamo Seedream 2.0, un modello di base bilingue cinese-inglese nativo per la generazione di immagini che eccelle in diverse dimensioni, gestendo con abilità i prompt di testo sia in cinese che in inglese, supportando la generazione di immagini bilingue e il rendering del testo. Abbiamo sviluppato un potente sistema di dati che facilita l'integrazione della conoscenza e un sistema di didascalie che bilancia accuratezza e ricchezza nella descrizione delle immagini. In particolare, Seedream è integrato con un modello di linguaggio bilingue sviluppato internamente come codificatore di testo, consentendogli di apprendere conoscenze native direttamente da dati massivi. Ciò gli permette di generare immagini ad alta fedeltà con accurate sfumature culturali ed espressioni estetiche descritte sia in cinese che in inglese. Inoltre, Glyph-Aligned ByT5 viene applicato per un rendering flessibile del testo a livello di carattere, mentre un Scaled ROPE generalizza bene a risoluzioni non addestrate. Ottimizzazioni post-addestramento multi-fase, inclusi iterazioni di SFT e RLHF, migliorano ulteriormente le capacità complessive. Attraverso un'ampia sperimentazione, dimostriamo che Seedream 2.0 raggiunge prestazioni all'avanguardia in molteplici aspetti, tra cui l'aderenza ai prompt, l'estetica, il rendering del testo e la correttezza strutturale. Inoltre, Seedream 2.0 è stato ottimizzato attraverso multiple iterazioni di RLHF per allineare strettamente il suo output alle preferenze umane, come rivelato dal suo eccezionale punteggio ELO. In aggiunta, può essere facilmente adattato a un modello di editing di immagini basato su istruzioni, come SeedEdit, con una forte capacità di editing che bilancia l'aderenza alle istruzioni e la coerenza dell'immagine.
English
Rapid advancement of diffusion models has catalyzed remarkable progress in
the field of image generation. However, prevalent models such as Flux, SD3.5
and Midjourney, still grapple with issues like model bias, limited text
rendering capabilities, and insufficient understanding of Chinese cultural
nuances. To address these limitations, we present Seedream 2.0, a native
Chinese-English bilingual image generation foundation model that excels across
diverse dimensions, which adeptly manages text prompt in both Chinese and
English, supporting bilingual image generation and text rendering. We develop a
powerful data system that facilitates knowledge integration, and a caption
system that balances the accuracy and richness for image description.
Particularly, Seedream is integrated with a self-developed bilingual large
language model as a text encoder, allowing it to learn native knowledge
directly from massive data. This enable it to generate high-fidelity images
with accurate cultural nuances and aesthetic expressions described in either
Chinese or English. Beside, Glyph-Aligned ByT5 is applied for flexible
character-level text rendering, while a Scaled ROPE generalizes well to
untrained resolutions. Multi-phase post-training optimizations, including SFT
and RLHF iterations, further improve the overall capability. Through extensive
experimentation, we demonstrate that Seedream 2.0 achieves state-of-the-art
performance across multiple aspects, including prompt-following, aesthetics,
text rendering, and structural correctness. Furthermore, Seedream 2.0 has been
optimized through multiple RLHF iterations to closely align its output with
human preferences, as revealed by its outstanding ELO score. In addition, it
can be readily adapted to an instruction-based image editing model, such as
SeedEdit, with strong editing capability that balances instruction-following
and image consistency.