Rapport Technique sur Qwen-Image
Qwen-Image Technical Report
August 4, 2025
papers.authors: Chenfei Wu, Jiahao Li, Jingren Zhou, Junyang Lin, Kaiyuan Gao, Kun Yan, Sheng-ming Yin, Shuai Bai, Xiao Xu, Yilei Chen, Yuxiang Chen, Zecheng Tang, Zekai Zhang, Zhengyi Wang, An Yang, Bowen Yu, Chen Cheng, Dayiheng Liu, Deqing Li, Hang Zhang, Hao Meng, Hu Wei, Jingyuan Ni, Kai Chen, Kuan Cao, Liang Peng, Lin Qu, Minggang Wu, Peng Wang, Shuting Yu, Tingkun Wen, Wensen Feng, Xiaoxiao Xu, Yi Wang, Yichang Zhang, Yongqiang Zhu, Yujia Wu, Yuxuan Cai, Zenan Liu
cs.AI
papers.abstract
Nous présentons Qwen-Image, un modèle de base pour la génération d'images de la série Qwen, qui réalise des avancées significatives dans le rendu de textes complexes et l'édition précise d'images. Pour relever les défis du rendu de textes complexes, nous concevons un pipeline de données complet incluant la collecte à grande échelle, le filtrage, l'annotation, la synthèse et l'équilibrage des données. De plus, nous adoptons une stratégie d'entraînement progressive qui commence par le rendu de non-texte à texte, évolue des entrées textuelles simples vers des entrées complexes, et s'étend progressivement jusqu'aux descriptions au niveau paragraphe. Cette approche d'apprentissage curriculaire améliore considérablement les capacités natives de rendu de texte du modèle. En conséquence, Qwen-Image excelle non seulement dans les langues alphabétiques comme l'anglais, mais réalise également des progrès remarquables dans des langues logographiques plus complexes comme le chinois. Pour améliorer la cohérence de l'édition d'images, nous introduisons un paradigme d'entraînement multi-tâches amélioré qui intègre non seulement les tâches traditionnelles de texte-à-image (T2I) et texte-image-à-image (TI2I), mais aussi la reconstruction image-à-image (I2I), alignant efficacement les représentations latentes entre Qwen2.5-VL et MMDiT. Par ailleurs, nous alimentons séparément l'image originale dans Qwen2.5-VL et l'encodeur VAE pour obtenir respectivement des représentations sémantiques et reconstructives. Ce mécanisme de double encodage permet au module d'édition de trouver un équilibre entre la préservation de la cohérence sémantique et le maintien de la fidélité visuelle. Qwen-Image atteint des performances de pointe, démontrant ses fortes capacités à la fois en génération et en édition d'images sur plusieurs benchmarks.
English
We present Qwen-Image, an image generation foundation model in the Qwen
series that achieves significant advances in complex text rendering and precise
image editing. To address the challenges of complex text rendering, we design a
comprehensive data pipeline that includes large-scale data collection,
filtering, annotation, synthesis, and balancing. Moreover, we adopt a
progressive training strategy that starts with non-text-to-text rendering,
evolves from simple to complex textual inputs, and gradually scales up to
paragraph-level descriptions. This curriculum learning approach substantially
enhances the model's native text rendering capabilities. As a result,
Qwen-Image not only performs exceptionally well in alphabetic languages such as
English, but also achieves remarkable progress on more challenging logographic
languages like Chinese. To enhance image editing consistency, we introduce an
improved multi-task training paradigm that incorporates not only traditional
text-to-image (T2I) and text-image-to-image (TI2I) tasks but also
image-to-image (I2I) reconstruction, effectively aligning the latent
representations between Qwen2.5-VL and MMDiT. Furthermore, we separately feed
the original image into Qwen2.5-VL and the VAE encoder to obtain semantic and
reconstructive representations, respectively. This dual-encoding mechanism
enables the editing module to strike a balance between preserving semantic
consistency and maintaining visual fidelity. Qwen-Image achieves
state-of-the-art performance, demonstrating its strong capabilities in both
image generation and editing across multiple benchmarks.