Seedream 4.0: Op weg naar een nieuwe generatie multimodale beeldgeneratie
Seedream 4.0: Toward Next-generation Multimodal Image Generation
September 24, 2025
Auteurs: Team Seedream, Yunpeng Chen, Yu Gao, Lixue Gong, Meng Guo, Qiushan Guo, Zhiyao Guo, Xiaoxia Hou, Weilin Huang, Yixuan Huang, Xiaowen Jian, Huafeng Kuang, Zhichao Lai, Fanshi Li, Liang Li, Xiaochen Lian, Chao Liao, Liyang Liu, Wei Liu, Yanzuo Lu, Zhengxiong Luo, Tongtong Ou, Guang Shi, Yichun Shi, Shiqi Sun, Yu Tian, Zhi Tian, Peng Wang, Rui Wang, Xun Wang, Ye Wang, Guofeng Wu, Jie Wu, Wenxu Wu, Yonghui Wu, Xin Xia, Xuefeng Xiao, Shuang Xu, Xin Yan, Ceyuan Yang, Jianchao Yang, Zhonghua Zhai, Chenlin Zhang, Heng Zhang, Qi Zhang, Xinyu Zhang, Yuwei Zhang, Shijia Zhao, Wenliang Zhao, Wenjia Zhu
cs.AI
Samenvatting
We introduceren Seedream 4.0, een efficiënt en hoogwaardig multimodaal beeldgeneratiesysteem dat tekst-naar-beeld (T2I) synthese, beeldbewerking en multi-beeldcompositie verenigt binnen een enkel raamwerk. We ontwikkelen een zeer efficiënte diffusietransformer met een krachtige VAE die ook het aantal beeldtokens aanzienlijk kan verminderen. Dit maakt efficiënte training van ons model mogelijk en stelt het in staat om snel native hoogresolutiebeelden te genereren (bijv. 1K-4K). Seedream 4.0 is voorgetraind op miljarden tekst-beeldparen die diverse taxonomieën en kennisgerichte concepten omvatten. Uitgebreide dataverzameling over honderden verticale scenario's, gecombineerd met geoptimaliseerde strategieën, zorgt voor stabiele en grootschalige training met sterke generalisatie. Door een zorgvuldig afgestemd VLM-model te integreren, voeren we multimodale na-training uit voor het gezamenlijk trainen van zowel T2I- als beeldbewerkingstaken. Voor versnelling van de inferentie integreren we adversarial distillation, distributiematching en kwantisatie, evenals speculatieve decodering. Het bereikt een inferentietijd van maximaal 1,8 seconden voor het genereren van een 2K-beeld (zonder een LLM/VLM als PE-model). Uitgebreide evaluaties tonen aan dat Seedream 4.0 state-of-the-art resultaten kan behalen op zowel T2I als multimodale beeldbewerking. In het bijzonder toont het uitzonderlijke multimodale capaciteiten in complexe taken, waaronder precieze beeldbewerking en in-context redeneren, en maakt het ook multi-beeldreferentie mogelijk, waarbij het meerdere uitvoerbeelden kan genereren. Dit breidt traditionele T2I-systemen uit tot een meer interactief en multidimensionaal creatief hulpmiddel, waardoor de grenzen van generatieve AI worden verlegd voor zowel creativiteit als professionele toepassingen. Seedream 4.0 is nu toegankelijk op https://www.volcengine.com/experience/ark?launch=seedream.
English
We introduce Seedream 4.0, an efficient and high-performance multimodal image
generation system that unifies text-to-image (T2I) synthesis, image editing,
and multi-image composition within a single framework. We develop a highly
efficient diffusion transformer with a powerful VAE which also can reduce the
number of image tokens considerably. This allows for efficient training of our
model, and enables it to fast generate native high-resolution images (e.g.,
1K-4K). Seedream 4.0 is pretrained on billions of text-image pairs spanning
diverse taxonomies and knowledge-centric concepts. Comprehensive data
collection across hundreds of vertical scenarios, coupled with optimized
strategies, ensures stable and large-scale training, with strong
generalization. By incorporating a carefully fine-tuned VLM model, we perform
multi-modal post-training for training both T2I and image editing tasks
jointly. For inference acceleration, we integrate adversarial distillation,
distribution matching, and quantization, as well as speculative decoding. It
achieves an inference time of up to 1.8 seconds for generating a 2K image
(without a LLM/VLM as PE model). Comprehensive evaluations reveal that Seedream
4.0 can achieve state-of-the-art results on both T2I and multimodal image
editing. In particular, it demonstrates exceptional multimodal capabilities in
complex tasks, including precise image editing and in-context reasoning, and
also allows for multi-image reference, and can generate multiple output images.
This extends traditional T2I systems into an more interactive and
multidimensional creative tool, pushing the boundary of generative AI for both
creativity and professional applications. Seedream 4.0 is now accessible on
https://www.volcengine.com/experience/ark?launch=seedream.