Seedream 4.0: Rumo à Próxima Geração de Geração de Imagens Multimodais
Seedream 4.0: Toward Next-generation Multimodal Image Generation
September 24, 2025
Autores: Team Seedream, Yunpeng Chen, Yu Gao, Lixue Gong, Meng Guo, Qiushan Guo, Zhiyao Guo, Xiaoxia Hou, Weilin Huang, Yixuan Huang, Xiaowen Jian, Huafeng Kuang, Zhichao Lai, Fanshi Li, Liang Li, Xiaochen Lian, Chao Liao, Liyang Liu, Wei Liu, Yanzuo Lu, Zhengxiong Luo, Tongtong Ou, Guang Shi, Yichun Shi, Shiqi Sun, Yu Tian, Zhi Tian, Peng Wang, Rui Wang, Xun Wang, Ye Wang, Guofeng Wu, Jie Wu, Wenxu Wu, Yonghui Wu, Xin Xia, Xuefeng Xiao, Shuang Xu, Xin Yan, Ceyuan Yang, Jianchao Yang, Zhonghua Zhai, Chenlin Zhang, Heng Zhang, Qi Zhang, Xinyu Zhang, Yuwei Zhang, Shijia Zhao, Wenliang Zhao, Wenjia Zhu
cs.AI
Resumo
Apresentamos o Seedream 4.0, um sistema eficiente e de alto desempenho para geração multimodal de imagens que unifica a síntese de texto para imagem (T2I), edição de imagem e composição de múltiplas imagens em um único framework. Desenvolvemos um transformer de difusão altamente eficiente com um VAE poderoso, que também pode reduzir consideravelmente o número de tokens de imagem. Isso permite o treinamento eficiente do nosso modelo e possibilita a geração rápida de imagens nativas de alta resolução (por exemplo, 1K-4K). O Seedream 4.0 foi pré-treinado em bilhões de pares texto-imagem que abrangem diversas taxonomias e conceitos centrados em conhecimento. Uma coleta abrangente de dados em centenas de cenários verticais, aliada a estratégias otimizadas, garante um treinamento estável e em larga escala, com forte generalização. Ao incorporar um modelo VLM cuidadosamente ajustado, realizamos pós-treinamento multimodal para treinar conjuntamente as tarefas de T2I e edição de imagem. Para aceleração da inferência, integramos destilação adversarial, correspondência de distribuição e quantização, além de decodificação especulativa. O sistema alcança um tempo de inferência de até 1,8 segundos para gerar uma imagem 2K (sem um LLM/VLM como modelo PE). Avaliações abrangentes revelam que o Seedream 4.0 pode alcançar resultados de ponta tanto em T2I quanto em edição multimodal de imagens. Em particular, ele demonstra capacidades multimodais excepcionais em tarefas complexas, incluindo edição precisa de imagens e raciocínio em contexto, além de permitir referência a múltiplas imagens e gerar várias imagens de saída. Isso estende os sistemas tradicionais de T2I para uma ferramenta criativa mais interativa e multidimensional, expandindo os limites da IA generativa tanto para criatividade quanto para aplicações profissionais. O Seedream 4.0 já está acessível em https://www.volcengine.com/experience/ark?launch=seedream.
English
We introduce Seedream 4.0, an efficient and high-performance multimodal image
generation system that unifies text-to-image (T2I) synthesis, image editing,
and multi-image composition within a single framework. We develop a highly
efficient diffusion transformer with a powerful VAE which also can reduce the
number of image tokens considerably. This allows for efficient training of our
model, and enables it to fast generate native high-resolution images (e.g.,
1K-4K). Seedream 4.0 is pretrained on billions of text-image pairs spanning
diverse taxonomies and knowledge-centric concepts. Comprehensive data
collection across hundreds of vertical scenarios, coupled with optimized
strategies, ensures stable and large-scale training, with strong
generalization. By incorporating a carefully fine-tuned VLM model, we perform
multi-modal post-training for training both T2I and image editing tasks
jointly. For inference acceleration, we integrate adversarial distillation,
distribution matching, and quantization, as well as speculative decoding. It
achieves an inference time of up to 1.8 seconds for generating a 2K image
(without a LLM/VLM as PE model). Comprehensive evaluations reveal that Seedream
4.0 can achieve state-of-the-art results on both T2I and multimodal image
editing. In particular, it demonstrates exceptional multimodal capabilities in
complex tasks, including precise image editing and in-context reasoning, and
also allows for multi-image reference, and can generate multiple output images.
This extends traditional T2I systems into an more interactive and
multidimensional creative tool, pushing the boundary of generative AI for both
creativity and professional applications. Seedream 4.0 is now accessible on
https://www.volcengine.com/experience/ark?launch=seedream.