Seedream 4.0: Hacia la próxima generación de generación de imágenes multimodales

Resumen

Presentamos Seedream 4.0, un sistema eficiente y de alto rendimiento para la generación multimodal de imágenes que unifica la síntesis de texto a imagen (T2I), la edición de imágenes y la composición de múltiples imágenes en un único marco de trabajo. Desarrollamos un transformador de difusión altamente eficiente con un VAE potente que también puede reducir considerablemente el número de tokens de imagen. Esto permite un entrenamiento eficiente de nuestro modelo y le permite generar rápidamente imágenes nativas de alta resolución (por ejemplo, 1K-4K). Seedream 4.0 se ha preentrenado con miles de millones de pares de texto-imagen que abarcan diversas taxonomías y conceptos centrados en el conocimiento. Una recopilación exhaustiva de datos a través de cientos de escenarios verticales, junto con estrategias optimizadas, garantiza un entrenamiento estable y a gran escala, con una fuerte generalización. Al incorporar un modelo VLM cuidadosamente ajustado, realizamos un entrenamiento posterior multimodal para entrenar conjuntamente las tareas de T2I y edición de imágenes. Para la aceleración de la inferencia, integramos destilación adversaria, coincidencia de distribuciones y cuantización, así como decodificación especulativa. Logra un tiempo de inferencia de hasta 1.8 segundos para generar una imagen de 2K (sin un modelo LLM/VLM como PE). Evaluaciones exhaustivas revelan que Seedream 4.0 puede alcanzar resultados de vanguardia tanto en T2I como en la edición multimodal de imágenes. En particular, demuestra capacidades multimodales excepcionales en tareas complejas, incluyendo edición precisa de imágenes y razonamiento en contexto, y también permite la referencia de múltiples imágenes, pudiendo generar múltiples imágenes de salida. Esto extiende los sistemas tradicionales de T2I hacia una herramienta creativa más interactiva y multidimensional, impulsando los límites de la IA generativa tanto para la creatividad como para aplicaciones profesionales. Seedream 4.0 está ahora accesible en https://www.volcengine.com/experience/ark?launch=seedream.

English

We introduce Seedream 4.0, an efficient and high-performance multimodal image generation system that unifies text-to-image (T2I) synthesis, image editing, and multi-image composition within a single framework. We develop a highly efficient diffusion transformer with a powerful VAE which also can reduce the number of image tokens considerably. This allows for efficient training of our model, and enables it to fast generate native high-resolution images (e.g., 1K-4K). Seedream 4.0 is pretrained on billions of text-image pairs spanning diverse taxonomies and knowledge-centric concepts. Comprehensive data collection across hundreds of vertical scenarios, coupled with optimized strategies, ensures stable and large-scale training, with strong generalization. By incorporating a carefully fine-tuned VLM model, we perform multi-modal post-training for training both T2I and image editing tasks jointly. For inference acceleration, we integrate adversarial distillation, distribution matching, and quantization, as well as speculative decoding. It achieves an inference time of up to 1.8 seconds for generating a 2K image (without a LLM/VLM as PE model). Comprehensive evaluations reveal that Seedream 4.0 can achieve state-of-the-art results on both T2I and multimodal image editing. In particular, it demonstrates exceptional multimodal capabilities in complex tasks, including precise image editing and in-context reasoning, and also allows for multi-image reference, and can generate multiple output images. This extends traditional T2I systems into an more interactive and multidimensional creative tool, pushing the boundary of generative AI for both creativity and professional applications. Seedream 4.0 is now accessible on https://www.volcengine.com/experience/ark?launch=seedream.