Технический отчет по Qwen-Image
Qwen-Image Technical Report
August 4, 2025
Авторы: Chenfei Wu, Jiahao Li, Jingren Zhou, Junyang Lin, Kaiyuan Gao, Kun Yan, Sheng-ming Yin, Shuai Bai, Xiao Xu, Yilei Chen, Yuxiang Chen, Zecheng Tang, Zekai Zhang, Zhengyi Wang, An Yang, Bowen Yu, Chen Cheng, Dayiheng Liu, Deqing Li, Hang Zhang, Hao Meng, Hu Wei, Jingyuan Ni, Kai Chen, Kuan Cao, Liang Peng, Lin Qu, Minggang Wu, Peng Wang, Shuting Yu, Tingkun Wen, Wensen Feng, Xiaoxiao Xu, Yi Wang, Yichang Zhang, Yongqiang Zhu, Yujia Wu, Yuxuan Cai, Zenan Liu
cs.AI
Аннотация
Мы представляем Qwen-Image, базовую модель генерации изображений из серии Qwen, которая достигает значительных успехов в сложном рендеринге текста и точном редактировании изображений. Для решения задач сложного рендеринга текста мы разработали комплексный конвейер данных, включающий масштабный сбор данных, фильтрацию, аннотирование, синтез и балансировку. Кроме того, мы применяем прогрессивную стратегию обучения, которая начинается с рендеринга без текста, переходит от простых к сложным текстовым вводам и постепенно масштабируется до описаний на уровне абзацев. Такой подход обучения по учебному плану существенно улучшает встроенные возможности модели по рендерингу текста. В результате Qwen-Image не только демонстрирует выдающиеся результаты в алфавитных языках, таких как английский, но и достигает значительного прогресса в более сложных логографических языках, таких как китайский. Для повышения согласованности редактирования изображений мы вводим улучшенную парадигму многозадачного обучения, которая включает не только традиционные задачи текст-в-изображение (T2I) и текст-изображение-в-изображение (TI2I), но и реконструкцию изображение-в-изображение (I2I), эффективно выравнивая латентные представления между Qwen2.5-VL и MMDiT. Кроме того, мы отдельно подаем исходное изображение в Qwen2.5-VL и кодировщик VAE для получения семантических и реконструктивных представлений соответственно. Этот механизм двойного кодирования позволяет модулю редактирования находить баланс между сохранением семантической согласованности и поддержанием визуальной точности. Qwen-Image демонстрирует передовые результаты, подтверждая свои сильные возможности в генерации и редактировании изображений на множестве бенчмарков.
English
We present Qwen-Image, an image generation foundation model in the Qwen
series that achieves significant advances in complex text rendering and precise
image editing. To address the challenges of complex text rendering, we design a
comprehensive data pipeline that includes large-scale data collection,
filtering, annotation, synthesis, and balancing. Moreover, we adopt a
progressive training strategy that starts with non-text-to-text rendering,
evolves from simple to complex textual inputs, and gradually scales up to
paragraph-level descriptions. This curriculum learning approach substantially
enhances the model's native text rendering capabilities. As a result,
Qwen-Image not only performs exceptionally well in alphabetic languages such as
English, but also achieves remarkable progress on more challenging logographic
languages like Chinese. To enhance image editing consistency, we introduce an
improved multi-task training paradigm that incorporates not only traditional
text-to-image (T2I) and text-image-to-image (TI2I) tasks but also
image-to-image (I2I) reconstruction, effectively aligning the latent
representations between Qwen2.5-VL and MMDiT. Furthermore, we separately feed
the original image into Qwen2.5-VL and the VAE encoder to obtain semantic and
reconstructive representations, respectively. This dual-encoding mechanism
enables the editing module to strike a balance between preserving semantic
consistency and maintaining visual fidelity. Qwen-Image achieves
state-of-the-art performance, demonstrating its strong capabilities in both
image generation and editing across multiple benchmarks.