Seedream 2.0: Een Native Chinees-Engels Tweetalig Beeldgeneratie Fundamentmodel
Seedream 2.0: A Native Chinese-English Bilingual Image Generation Foundation Model
March 10, 2025
Auteurs: Lixue Gong, Xiaoxia Hou, Fanshi Li, Liang Li, Xiaochen Lian, Fei Liu, Liyang Liu, Wei Liu, Wei Lu, Yichun Shi, Shiqi Sun, Yu Tian, Zhi Tian, Peng Wang, Xun Wang, Ye Wang, Guofeng Wu, Jie Wu, Xin Xia, Xuefeng Xiao, Linjie Yang, Zhonghua Zhai, Xinyu Zhang, Qi Zhang, Yuwei Zhang, Shijia Zhao, Jianchao Yang, Weilin Huang
cs.AI
Samenvatting
De snelle vooruitgang van diffusiemodellen heeft een opmerkelijke vooruitgang in het veld van beeldgeneratie teweeggebracht. Toch worstelen gangbare modellen zoals Flux, SD3.5 en Midjourney nog steeds met problemen zoals modelbias, beperkte tekstweergavecapaciteiten en onvoldoende begrip van Chinese culturele nuances. Om deze beperkingen aan te pakken, presenteren we Seedream 2.0, een native Chinees-Engels tweetalig beeldgeneratie-basismodel dat uitblinkt op diverse dimensies, en dat tekstprompts in zowel Chinees als Engels vakkundig verwerkt, waardoor het tweetalige beeldgeneratie en tekstweergave ondersteunt. We ontwikkelen een krachtig datasysteem dat kennisintegratie vergemakkelijkt, en een bijschriftsysteem dat een balans vindt tussen nauwkeurigheid en rijkdom in beeldbeschrijvingen. In het bijzonder is Seedream geïntegreerd met een zelfontwikkeld tweetalig groot taalmodel als tekstencoder, waardoor het native kennis rechtstreeks kan leren uit enorme hoeveelheden data. Dit stelt het in staat om hoogwaardige afbeeldingen te genereren met nauwkeurige culturele nuances en esthetische uitdrukkingen, beschreven in zowel Chinees als Engels. Daarnaast wordt Glyph-Aligned ByT5 toegepast voor flexibele teken-niveau tekstweergave, terwijl een Scaled ROPE goed generaliseert naar ongetrainde resoluties. Multi-fase post-trainingsoptimalisaties, inclusief SFT en RLHF-iteraties, verbeteren de algehele capaciteit verder. Door uitgebreide experimenten tonen we aan dat Seedream 2.0 state-of-the-art prestaties bereikt op meerdere aspecten, waaronder prompt-volgen, esthetiek, tekstweergave en structurele correctheid. Bovendien is Seedream 2.0 geoptimaliseerd door meerdere RLHF-iteraties om de uitvoer nauwkeurig af te stemmen op menselijke voorkeuren, zoals blijkt uit de uitstekende ELO-score. Daarnaast kan het gemakkelijk worden aangepast naar een instructie-gebaseerd beeldbewerkingsmodel, zoals SeedEdit, met sterke bewerkingscapaciteiten die een balans vinden tussen instructie-volgen en beeldconsistentie.
English
Rapid advancement of diffusion models has catalyzed remarkable progress in
the field of image generation. However, prevalent models such as Flux, SD3.5
and Midjourney, still grapple with issues like model bias, limited text
rendering capabilities, and insufficient understanding of Chinese cultural
nuances. To address these limitations, we present Seedream 2.0, a native
Chinese-English bilingual image generation foundation model that excels across
diverse dimensions, which adeptly manages text prompt in both Chinese and
English, supporting bilingual image generation and text rendering. We develop a
powerful data system that facilitates knowledge integration, and a caption
system that balances the accuracy and richness for image description.
Particularly, Seedream is integrated with a self-developed bilingual large
language model as a text encoder, allowing it to learn native knowledge
directly from massive data. This enable it to generate high-fidelity images
with accurate cultural nuances and aesthetic expressions described in either
Chinese or English. Beside, Glyph-Aligned ByT5 is applied for flexible
character-level text rendering, while a Scaled ROPE generalizes well to
untrained resolutions. Multi-phase post-training optimizations, including SFT
and RLHF iterations, further improve the overall capability. Through extensive
experimentation, we demonstrate that Seedream 2.0 achieves state-of-the-art
performance across multiple aspects, including prompt-following, aesthetics,
text rendering, and structural correctness. Furthermore, Seedream 2.0 has been
optimized through multiple RLHF iterations to closely align its output with
human preferences, as revealed by its outstanding ELO score. In addition, it
can be readily adapted to an instruction-based image editing model, such as
SeedEdit, with strong editing capability that balances instruction-following
and image consistency.Summary
AI-Generated Summary