Seedream 4.0: Auf dem Weg zur nächsten Generation multimodaler Bildgenerierung

Zusammenfassung

Wir stellen Seedream 4.0 vor, ein effizientes und leistungsstarkes multimodales Bildgenerierungssystem, das Text-zu-Bild (T2I)-Synthese, Bildbearbeitung und Multi-Bild-Komposition in einem einzigen Framework vereint. Wir entwickeln einen hocheffizienten Diffusions-Transformer mit einem leistungsfähigen VAE, der auch die Anzahl der Bild-Tokens erheblich reduzieren kann. Dies ermöglicht eine effiziente Trainierung unseres Modells und erlaubt es, native hochauflösende Bilder (z.B. 1K-4K) schnell zu generieren. Seedream 4.0 ist auf Milliarden von Text-Bild-Paaren trainiert, die diverse Taxonomien und wissenszentrierte Konzepte abdecken. Eine umfassende Datensammlung über Hunderte von vertikalen Szenarien, kombiniert mit optimierten Strategien, gewährleistet ein stabiles und großflächiges Training mit starker Generalisierung. Durch die Einbindung eines sorgfältig feinabgestimmten VLM-Modells führen wir ein multimodales Post-Training durch, um sowohl T2I- als auch Bildbearbeitungsaufgaben gemeinsam zu trainieren. Zur Beschleunigung der Inferenz integrieren wir adversariales Distilling, Distribution Matching und Quantisierung sowie spekulatives Decoding. Es erreicht eine Inferenzzeit von bis zu 1,8 Sekunden für die Generierung eines 2K-Bildes (ohne ein LLM/VLM als PE-Modell). Umfassende Evaluierungen zeigen, dass Seedream 4.0 state-of-the-art Ergebnisse sowohl bei T2I als auch bei multimodaler Bildbearbeitung erzielen kann. Insbesondere demonstriert es außergewöhnliche multimodale Fähigkeiten in komplexen Aufgaben, einschließlich präziser Bildbearbeitung und In-Context-Reasoning, und ermöglicht auch Multi-Bild-Referenz sowie die Generierung mehrerer Ausgabebilder. Dies erweitert traditionelle T2I-Systeme zu einem interaktiveren und multidimensionalen Kreativwerkzeug und erweitert die Grenzen der generativen KI sowohl für kreative als auch professionelle Anwendungen. Seedream 4.0 ist jetzt unter https://www.volcengine.com/experience/ark?launch=seedream zugänglich.

English

We introduce Seedream 4.0, an efficient and high-performance multimodal image generation system that unifies text-to-image (T2I) synthesis, image editing, and multi-image composition within a single framework. We develop a highly efficient diffusion transformer with a powerful VAE which also can reduce the number of image tokens considerably. This allows for efficient training of our model, and enables it to fast generate native high-resolution images (e.g., 1K-4K). Seedream 4.0 is pretrained on billions of text-image pairs spanning diverse taxonomies and knowledge-centric concepts. Comprehensive data collection across hundreds of vertical scenarios, coupled with optimized strategies, ensures stable and large-scale training, with strong generalization. By incorporating a carefully fine-tuned VLM model, we perform multi-modal post-training for training both T2I and image editing tasks jointly. For inference acceleration, we integrate adversarial distillation, distribution matching, and quantization, as well as speculative decoding. It achieves an inference time of up to 1.8 seconds for generating a 2K image (without a LLM/VLM as PE model). Comprehensive evaluations reveal that Seedream 4.0 can achieve state-of-the-art results on both T2I and multimodal image editing. In particular, it demonstrates exceptional multimodal capabilities in complex tasks, including precise image editing and in-context reasoning, and also allows for multi-image reference, and can generate multiple output images. This extends traditional T2I systems into an more interactive and multidimensional creative tool, pushing the boundary of generative AI for both creativity and professional applications. Seedream 4.0 is now accessible on https://www.volcengine.com/experience/ark?launch=seedream.