Seedream 4.0: Rumo à Próxima Geração de Geração de Imagens Multimodais

Resumo

Apresentamos o Seedream 4.0, um sistema eficiente e de alto desempenho para geração multimodal de imagens que unifica a síntese de texto para imagem (T2I), edição de imagem e composição de múltiplas imagens em um único framework. Desenvolvemos um transformer de difusão altamente eficiente com um VAE poderoso, que também pode reduzir consideravelmente o número de tokens de imagem. Isso permite o treinamento eficiente do nosso modelo e possibilita a geração rápida de imagens nativas de alta resolução (por exemplo, 1K-4K). O Seedream 4.0 foi pré-treinado em bilhões de pares texto-imagem que abrangem diversas taxonomias e conceitos centrados em conhecimento. Uma coleta abrangente de dados em centenas de cenários verticais, aliada a estratégias otimizadas, garante um treinamento estável e em larga escala, com forte generalização. Ao incorporar um modelo VLM cuidadosamente ajustado, realizamos pós-treinamento multimodal para treinar conjuntamente as tarefas de T2I e edição de imagem. Para aceleração da inferência, integramos destilação adversarial, correspondência de distribuição e quantização, além de decodificação especulativa. O sistema alcança um tempo de inferência de até 1,8 segundos para gerar uma imagem 2K (sem um LLM/VLM como modelo PE). Avaliações abrangentes revelam que o Seedream 4.0 pode alcançar resultados de ponta tanto em T2I quanto em edição multimodal de imagens. Em particular, ele demonstra capacidades multimodais excepcionais em tarefas complexas, incluindo edição precisa de imagens e raciocínio em contexto, além de permitir referência a múltiplas imagens e gerar várias imagens de saída. Isso estende os sistemas tradicionais de T2I para uma ferramenta criativa mais interativa e multidimensional, expandindo os limites da IA generativa tanto para criatividade quanto para aplicações profissionais. O Seedream 4.0 já está acessível em https://www.volcengine.com/experience/ark?launch=seedream.

English

We introduce Seedream 4.0, an efficient and high-performance multimodal image generation system that unifies text-to-image (T2I) synthesis, image editing, and multi-image composition within a single framework. We develop a highly efficient diffusion transformer with a powerful VAE which also can reduce the number of image tokens considerably. This allows for efficient training of our model, and enables it to fast generate native high-resolution images (e.g., 1K-4K). Seedream 4.0 is pretrained on billions of text-image pairs spanning diverse taxonomies and knowledge-centric concepts. Comprehensive data collection across hundreds of vertical scenarios, coupled with optimized strategies, ensures stable and large-scale training, with strong generalization. By incorporating a carefully fine-tuned VLM model, we perform multi-modal post-training for training both T2I and image editing tasks jointly. For inference acceleration, we integrate adversarial distillation, distribution matching, and quantization, as well as speculative decoding. It achieves an inference time of up to 1.8 seconds for generating a 2K image (without a LLM/VLM as PE model). Comprehensive evaluations reveal that Seedream 4.0 can achieve state-of-the-art results on both T2I and multimodal image editing. In particular, it demonstrates exceptional multimodal capabilities in complex tasks, including precise image editing and in-context reasoning, and also allows for multi-image reference, and can generate multiple output images. This extends traditional T2I systems into an more interactive and multidimensional creative tool, pushing the boundary of generative AI for both creativity and professional applications. Seedream 4.0 is now accessible on https://www.volcengine.com/experience/ark?launch=seedream.

Seedream 4.0: Rumo à Próxima Geração de Geração de Imagens Multimodais

Seedream 4.0: Toward Next-generation Multimodal Image Generation

Resumo

Support