ChatPaper.aiChatPaper

Seedream 2.0: Нативная двуязычная модель генерации изображений на китайском и английском языках

Seedream 2.0: A Native Chinese-English Bilingual Image Generation Foundation Model

March 10, 2025
Авторы: Lixue Gong, Xiaoxia Hou, Fanshi Li, Liang Li, Xiaochen Lian, Fei Liu, Liyang Liu, Wei Liu, Wei Lu, Yichun Shi, Shiqi Sun, Yu Tian, Zhi Tian, Peng Wang, Xun Wang, Ye Wang, Guofeng Wu, Jie Wu, Xin Xia, Xuefeng Xiao, Linjie Yang, Zhonghua Zhai, Xinyu Zhang, Qi Zhang, Yuwei Zhang, Shijia Zhao, Jianchao Yang, Weilin Huang
cs.AI

Аннотация

Быстрое развитие диффузионных моделей стимулировало значительный прогресс в области генерации изображений. Однако популярные модели, такие как Flux, SD3.5 и Midjourney, по-прежнему сталкиваются с проблемами, включая смещение моделей, ограниченные возможности рендеринга текста и недостаточное понимание культурных нюансов китайского языка. Для устранения этих ограничений мы представляем Seedream 2.0 — базовую модель генерации изображений, изначально поддерживающую китайско-английский билингвизм, которая превосходно справляется с текстовыми запросами на обоих языках, поддерживая билингвальную генерацию изображений и рендеринг текста. Мы разработали мощную систему данных, способствующую интеграции знаний, и систему описаний, которая балансирует между точностью и насыщенностью описаний изображений. В частности, Seedream интегрирована с самостоятельно разработанной билингвальной языковой моделью большого масштаба в качестве текстового кодировщика, что позволяет ей изучать знания напрямую из огромных объемов данных. Это позволяет генерировать изображения высокой точности с корректными культурными нюансами и эстетическими выражениями, описанными как на китайском, так и на английском языках. Кроме того, Glyph-Aligned ByT5 применяется для гибкого рендеринга текста на уровне символов, а Scaled ROPE демонстрирует хорошую обобщаемость на необученных разрешениях. Многоэтапная пост-тренировочная оптимизация, включая итерации SFT и RLHF, дополнительно улучшает общие возможности модели. В ходе обширных экспериментов мы демонстрируем, что Seedream 2.0 достигает передовых результатов по множеству аспектов, включая следование запросам, эстетику, рендеринг текста и структурную корректность. Более того, Seedream 2.0 была оптимизирована с помощью нескольких итераций RLHF для максимального соответствия её результатов человеческим предпочтениям, что подтверждается её выдающимся показателем ELO. Кроме того, модель легко адаптируется для использования в качестве модели редактирования изображений на основе инструкций, такой как SeedEdit, обладая мощными возможностями редактирования, которые балансируют между следованием инструкциям и сохранением целостности изображения.
English
Rapid advancement of diffusion models has catalyzed remarkable progress in the field of image generation. However, prevalent models such as Flux, SD3.5 and Midjourney, still grapple with issues like model bias, limited text rendering capabilities, and insufficient understanding of Chinese cultural nuances. To address these limitations, we present Seedream 2.0, a native Chinese-English bilingual image generation foundation model that excels across diverse dimensions, which adeptly manages text prompt in both Chinese and English, supporting bilingual image generation and text rendering. We develop a powerful data system that facilitates knowledge integration, and a caption system that balances the accuracy and richness for image description. Particularly, Seedream is integrated with a self-developed bilingual large language model as a text encoder, allowing it to learn native knowledge directly from massive data. This enable it to generate high-fidelity images with accurate cultural nuances and aesthetic expressions described in either Chinese or English. Beside, Glyph-Aligned ByT5 is applied for flexible character-level text rendering, while a Scaled ROPE generalizes well to untrained resolutions. Multi-phase post-training optimizations, including SFT and RLHF iterations, further improve the overall capability. Through extensive experimentation, we demonstrate that Seedream 2.0 achieves state-of-the-art performance across multiple aspects, including prompt-following, aesthetics, text rendering, and structural correctness. Furthermore, Seedream 2.0 has been optimized through multiple RLHF iterations to closely align its output with human preferences, as revealed by its outstanding ELO score. In addition, it can be readily adapted to an instruction-based image editing model, such as SeedEdit, with strong editing capability that balances instruction-following and image consistency.

Summary

AI-Generated Summary

PDF352March 12, 2025