Seedream 4.0 : Vers la nouvelle génération de génération d'images multimodales

Résumé

Nous présentons Seedream 4.0, un système efficace et performant de génération d'images multimodales qui unifie la synthèse texte-à-image (T2I), l'édition d'images et la composition multi-images au sein d'un même cadre. Nous avons développé un transformeur de diffusion hautement efficace, doté d'un VAE puissant, capable de réduire considérablement le nombre de tokens d'image. Cela permet un entraînement efficace de notre modèle et lui permet de générer rapidement des images haute résolution natives (par exemple, 1K-4K). Seedream 4.0 est pré-entraîné sur des milliards de paires texte-image couvrant des taxonomies variées et des concepts centrés sur la connaissance. Une collecte de données exhaustive à travers des centaines de scénarios verticaux, associée à des stratégies optimisées, assure un entraînement stable et à grande échelle, avec une forte généralisation. En intégrant un modèle VLM soigneusement affiné, nous effectuons un post-entraînement multimodal pour entraîner conjointement les tâches T2I et d'édition d'images. Pour l'accélération de l'inférence, nous intégrons la distillation adversarial, l'appariement de distributions, la quantification ainsi que le décodage spéculatif. Le système atteint un temps d'inférence allant jusqu'à 1,8 seconde pour générer une image 2K (sans LLM/VLM comme modèle PE). Des évaluations approfondies révèlent que Seedream 4.0 obtient des résultats de pointe à la fois en T2I et en édition d'images multimodales. En particulier, il démontre des capacités multimodales exceptionnelles dans des tâches complexes, incluant l'édition précise d'images et le raisonnement contextuel, et permet également la référence multi-images, ainsi que la génération de plusieurs images de sortie. Cela étend les systèmes T2I traditionnels en un outil créatif plus interactif et multidimensionnel, repoussant les limites de l'IA générative pour des applications tant créatives que professionnelles. Seedream 4.0 est désormais accessible sur https://www.volcengine.com/experience/ark?launch=seedream.

English

We introduce Seedream 4.0, an efficient and high-performance multimodal image generation system that unifies text-to-image (T2I) synthesis, image editing, and multi-image composition within a single framework. We develop a highly efficient diffusion transformer with a powerful VAE which also can reduce the number of image tokens considerably. This allows for efficient training of our model, and enables it to fast generate native high-resolution images (e.g., 1K-4K). Seedream 4.0 is pretrained on billions of text-image pairs spanning diverse taxonomies and knowledge-centric concepts. Comprehensive data collection across hundreds of vertical scenarios, coupled with optimized strategies, ensures stable and large-scale training, with strong generalization. By incorporating a carefully fine-tuned VLM model, we perform multi-modal post-training for training both T2I and image editing tasks jointly. For inference acceleration, we integrate adversarial distillation, distribution matching, and quantization, as well as speculative decoding. It achieves an inference time of up to 1.8 seconds for generating a 2K image (without a LLM/VLM as PE model). Comprehensive evaluations reveal that Seedream 4.0 can achieve state-of-the-art results on both T2I and multimodal image editing. In particular, it demonstrates exceptional multimodal capabilities in complex tasks, including precise image editing and in-context reasoning, and also allows for multi-image reference, and can generate multiple output images. This extends traditional T2I systems into an more interactive and multidimensional creative tool, pushing the boundary of generative AI for both creativity and professional applications. Seedream 4.0 is now accessible on https://www.volcengine.com/experience/ark?launch=seedream.