Технический отчет по Qwen-Image

Аннотация

Мы представляем Qwen-Image, базовую модель генерации изображений из серии Qwen, которая достигает значительных успехов в сложном рендеринге текста и точном редактировании изображений. Для решения задач сложного рендеринга текста мы разработали комплексный конвейер данных, включающий масштабный сбор данных, фильтрацию, аннотирование, синтез и балансировку. Кроме того, мы применяем прогрессивную стратегию обучения, которая начинается с рендеринга без текста, переходит от простых к сложным текстовым вводам и постепенно масштабируется до описаний на уровне абзацев. Такой подход обучения по учебному плану существенно улучшает встроенные возможности модели по рендерингу текста. В результате Qwen-Image не только демонстрирует выдающиеся результаты в алфавитных языках, таких как английский, но и достигает значительного прогресса в более сложных логографических языках, таких как китайский. Для повышения согласованности редактирования изображений мы вводим улучшенную парадигму многозадачного обучения, которая включает не только традиционные задачи текст-в-изображение (T2I) и текст-изображение-в-изображение (TI2I), но и реконструкцию изображение-в-изображение (I2I), эффективно выравнивая латентные представления между Qwen2.5-VL и MMDiT. Кроме того, мы отдельно подаем исходное изображение в Qwen2.5-VL и кодировщик VAE для получения семантических и реконструктивных представлений соответственно. Этот механизм двойного кодирования позволяет модулю редактирования находить баланс между сохранением семантической согласованности и поддержанием визуальной точности. Qwen-Image демонстрирует передовые результаты, подтверждая свои сильные возможности в генерации и редактировании изображений на множестве бенчмарков.

English

We present Qwen-Image, an image generation foundation model in the Qwen series that achieves significant advances in complex text rendering and precise image editing. To address the challenges of complex text rendering, we design a comprehensive data pipeline that includes large-scale data collection, filtering, annotation, synthesis, and balancing. Moreover, we adopt a progressive training strategy that starts with non-text-to-text rendering, evolves from simple to complex textual inputs, and gradually scales up to paragraph-level descriptions. This curriculum learning approach substantially enhances the model's native text rendering capabilities. As a result, Qwen-Image not only performs exceptionally well in alphabetic languages such as English, but also achieves remarkable progress on more challenging logographic languages like Chinese. To enhance image editing consistency, we introduce an improved multi-task training paradigm that incorporates not only traditional text-to-image (T2I) and text-image-to-image (TI2I) tasks but also image-to-image (I2I) reconstruction, effectively aligning the latent representations between Qwen2.5-VL and MMDiT. Furthermore, we separately feed the original image into Qwen2.5-VL and the VAE encoder to obtain semantic and reconstructive representations, respectively. This dual-encoding mechanism enables the editing module to strike a balance between preserving semantic consistency and maintaining visual fidelity. Qwen-Image achieves state-of-the-art performance, demonstrating its strong capabilities in both image generation and editing across multiple benchmarks.