Seedream 4.0: Verso la prossima generazione di generazione di immagini multimodali
Seedream 4.0: Toward Next-generation Multimodal Image Generation
September 24, 2025
Autori: Team Seedream, Yunpeng Chen, Yu Gao, Lixue Gong, Meng Guo, Qiushan Guo, Zhiyao Guo, Xiaoxia Hou, Weilin Huang, Yixuan Huang, Xiaowen Jian, Huafeng Kuang, Zhichao Lai, Fanshi Li, Liang Li, Xiaochen Lian, Chao Liao, Liyang Liu, Wei Liu, Yanzuo Lu, Zhengxiong Luo, Tongtong Ou, Guang Shi, Yichun Shi, Shiqi Sun, Yu Tian, Zhi Tian, Peng Wang, Rui Wang, Xun Wang, Ye Wang, Guofeng Wu, Jie Wu, Wenxu Wu, Yonghui Wu, Xin Xia, Xuefeng Xiao, Shuang Xu, Xin Yan, Ceyuan Yang, Jianchao Yang, Zhonghua Zhai, Chenlin Zhang, Heng Zhang, Qi Zhang, Xinyu Zhang, Yuwei Zhang, Shijia Zhao, Wenliang Zhao, Wenjia Zhu
cs.AI
Abstract
Presentiamo Seedream 4.0, un sistema efficiente e ad alte prestazioni per la generazione multimodale di immagini, che unisce la sintesi da testo a immagine (T2I), l'editing di immagini e la composizione di più immagini all'interno di un unico framework. Abbiamo sviluppato un transformer di diffusione altamente efficiente, dotato di un potente VAE (Variational Autoencoder) che riduce significativamente il numero di token delle immagini. Ciò consente un addestramento efficiente del nostro modello e permette la generazione rapida di immagini native ad alta risoluzione (ad esempio, 1K-4K). Seedream 4.0 è preaddestrato su miliardi di coppie testo-immagine che coprono una vasta gamma di tassonomie e concetti centrati sulla conoscenza. Una raccolta dati completa in centinaia di scenari verticali, unita a strategie ottimizzate, garantisce un addestramento stabile e su larga scala, con una forte generalizzazione. Incorporando un modello VLM (Vision-Language Model) accuratamente ottimizzato, eseguiamo un post-addestramento multimodale per addestrare congiuntamente sia i task T2I che quelli di editing di immagini. Per l'accelerazione dell'inferenza, integriamo tecniche come la distillazione avversaria, il matching di distribuzione, la quantizzazione e il decoding speculativo. Il sistema raggiunge un tempo di inferenza fino a 1,8 secondi per generare un'immagine 2K (senza l'uso di un LLM/VLM come modello PE). Valutazioni complete dimostrano che Seedream 4.0 può ottenere risultati all'avanguardia sia nel T2I che nell'editing multimodale di immagini. In particolare, mostra capacità multimodali eccezionali in task complessi, come l'editing preciso di immagini e il ragionamento contestuale, e consente anche il riferimento a più immagini, generando più immagini in output. Questo estende i tradizionali sistemi T2I in uno strumento creativo più interattivo e multidimensionale, spingendo i confini dell'IA generativa sia per la creatività che per applicazioni professionali. Seedream 4.0 è ora accessibile su https://www.volcengine.com/experience/ark?launch=seedream.
English
We introduce Seedream 4.0, an efficient and high-performance multimodal image
generation system that unifies text-to-image (T2I) synthesis, image editing,
and multi-image composition within a single framework. We develop a highly
efficient diffusion transformer with a powerful VAE which also can reduce the
number of image tokens considerably. This allows for efficient training of our
model, and enables it to fast generate native high-resolution images (e.g.,
1K-4K). Seedream 4.0 is pretrained on billions of text-image pairs spanning
diverse taxonomies and knowledge-centric concepts. Comprehensive data
collection across hundreds of vertical scenarios, coupled with optimized
strategies, ensures stable and large-scale training, with strong
generalization. By incorporating a carefully fine-tuned VLM model, we perform
multi-modal post-training for training both T2I and image editing tasks
jointly. For inference acceleration, we integrate adversarial distillation,
distribution matching, and quantization, as well as speculative decoding. It
achieves an inference time of up to 1.8 seconds for generating a 2K image
(without a LLM/VLM as PE model). Comprehensive evaluations reveal that Seedream
4.0 can achieve state-of-the-art results on both T2I and multimodal image
editing. In particular, it demonstrates exceptional multimodal capabilities in
complex tasks, including precise image editing and in-context reasoning, and
also allows for multi-image reference, and can generate multiple output images.
This extends traditional T2I systems into an more interactive and
multidimensional creative tool, pushing the boundary of generative AI for both
creativity and professional applications. Seedream 4.0 is now accessible on
https://www.volcengine.com/experience/ark?launch=seedream.