Seedream 4.0: На пути к новому поколению мультимодальной генерации изображений

Аннотация

Мы представляем Seedream 4.0 — эффективную и высокопроизводительную мультимодальную систему генерации изображений, которая объединяет синтез текста в изображение (T2I), редактирование изображений и композицию из нескольких изображений в единой архитектуре. Мы разработали высокоэффективный диффузионный трансформер с мощным VAE, который также значительно сокращает количество токенов изображения. Это позволяет эффективно обучать нашу модель и быстро генерировать нативные изображения высокого разрешения (например, 1K-4K). Seedream 4.0 предварительно обучен на миллиардах пар текст-изображение, охватывающих разнообразные таксономии и концепции, ориентированные на знания. Комплексный сбор данных в сотнях вертикальных сценариев, дополненный оптимизированными стратегиями, обеспечивает стабильное и масштабное обучение с сильной обобщающей способностью. Благодаря включению тщательно настроенной модели VLM, мы выполняем мультимодальное пост-обучение для совместного обучения задач T2I и редактирования изображений. Для ускорения вывода мы интегрировали методы адверсарного дистилляции, согласования распределений, квантования, а также спекулятивного декодирования. Это позволяет достичь времени вывода до 1,8 секунд для генерации изображения 2K (без использования LLM/VLM в качестве PE-модели). Комплексные оценки показывают, что Seedream 4.0 достигает передовых результатов как в T2I, так и в мультимодальном редактировании изображений. В частности, он демонстрирует исключительные мультимодальные возможности в сложных задачах, включая точное редактирование изображений и контекстное рассуждение, а также поддерживает использование нескольких изображений в качестве референсов и может генерировать несколько выходных изображений. Это расширяет традиционные системы T2I в более интерактивный и многомерный творческий инструмент, продвигая границы генеративного ИИ как для творчества, так и для профессиональных приложений. Seedream 4.0 теперь доступен по адресу https://www.volcengine.com/experience/ark?launch=seedream.

English

We introduce Seedream 4.0, an efficient and high-performance multimodal image generation system that unifies text-to-image (T2I) synthesis, image editing, and multi-image composition within a single framework. We develop a highly efficient diffusion transformer with a powerful VAE which also can reduce the number of image tokens considerably. This allows for efficient training of our model, and enables it to fast generate native high-resolution images (e.g., 1K-4K). Seedream 4.0 is pretrained on billions of text-image pairs spanning diverse taxonomies and knowledge-centric concepts. Comprehensive data collection across hundreds of vertical scenarios, coupled with optimized strategies, ensures stable and large-scale training, with strong generalization. By incorporating a carefully fine-tuned VLM model, we perform multi-modal post-training for training both T2I and image editing tasks jointly. For inference acceleration, we integrate adversarial distillation, distribution matching, and quantization, as well as speculative decoding. It achieves an inference time of up to 1.8 seconds for generating a 2K image (without a LLM/VLM as PE model). Comprehensive evaluations reveal that Seedream 4.0 can achieve state-of-the-art results on both T2I and multimodal image editing. In particular, it demonstrates exceptional multimodal capabilities in complex tasks, including precise image editing and in-context reasoning, and also allows for multi-image reference, and can generate multiple output images. This extends traditional T2I systems into an more interactive and multidimensional creative tool, pushing the boundary of generative AI for both creativity and professional applications. Seedream 4.0 is now accessible on https://www.volcengine.com/experience/ark?launch=seedream.