Qwen-Image Technisch Rapport
Qwen-Image Technical Report
August 4, 2025
Auteurs: Chenfei Wu, Jiahao Li, Jingren Zhou, Junyang Lin, Kaiyuan Gao, Kun Yan, Sheng-ming Yin, Shuai Bai, Xiao Xu, Yilei Chen, Yuxiang Chen, Zecheng Tang, Zekai Zhang, Zhengyi Wang, An Yang, Bowen Yu, Chen Cheng, Dayiheng Liu, Deqing Li, Hang Zhang, Hao Meng, Hu Wei, Jingyuan Ni, Kai Chen, Kuan Cao, Liang Peng, Lin Qu, Minggang Wu, Peng Wang, Shuting Yu, Tingkun Wen, Wensen Feng, Xiaoxiao Xu, Yi Wang, Yichang Zhang, Yongqiang Zhu, Yujia Wu, Yuxuan Cai, Zenan Liu
cs.AI
Samenvatting
We presenteren Qwen-Image, een fundamenteel model voor beeldgeneratie in de Qwen-serie dat aanzienlijke vooruitgang boekt in complexe tekstweergave en precieze beeldbewerking. Om de uitdagingen van complexe tekstweergave aan te pakken, hebben we een uitgebreide datapijplijn ontworpen die grootschalige gegevensverzameling, filtering, annotatie, synthese en balancering omvat. Bovendien hanteren we een progressieve trainingsstrategie die begint met niet-tekst-naar-tekst weergave, evolueert van eenvoudige naar complexe tekstuele invoer, en geleidelijk opschaalt naar beschrijvingen op paragraafniveau. Deze curriculumleerbenadering verbetert aanzienlijk de inherente tekstweergavecapaciteiten van het model. Als resultaat presteert Qwen-Image niet alleen uitstekend in alfabetische talen zoals Engels, maar boekt het ook opmerkelijke vooruitgang op uitdagendere logografische talen zoals Chinees. Om de consistentie van beeldbewerking te verbeteren, introduceren we een verbeterd multi-task trainingsparadigma dat niet alleen traditionele tekst-naar-beeld (T2I) en tekst-beeld-naar-beeld (TI2I) taken omvat, maar ook beeld-naar-beeld (I2I) reconstructie, waardoor de latente representaties tussen Qwen2.5-VL en MMDiT effectief worden uitgelijnd. Verder voeden we het originele beeld afzonderlijk in Qwen2.5-VL en de VAE-encoder in om respectievelijk semantische en reconstructieve representaties te verkrijgen. Dit duale coderingsmechanisme stelt de bewerkingsmodule in staat een balans te vinden tussen het behouden van semantische consistentie en het handhaven van visuele trouw. Qwen-Image behaalt state-of-the-art prestaties, wat zijn sterke capaciteiten aantoont in zowel beeldgeneratie als -bewerking over meerdere benchmarks.
English
We present Qwen-Image, an image generation foundation model in the Qwen
series that achieves significant advances in complex text rendering and precise
image editing. To address the challenges of complex text rendering, we design a
comprehensive data pipeline that includes large-scale data collection,
filtering, annotation, synthesis, and balancing. Moreover, we adopt a
progressive training strategy that starts with non-text-to-text rendering,
evolves from simple to complex textual inputs, and gradually scales up to
paragraph-level descriptions. This curriculum learning approach substantially
enhances the model's native text rendering capabilities. As a result,
Qwen-Image not only performs exceptionally well in alphabetic languages such as
English, but also achieves remarkable progress on more challenging logographic
languages like Chinese. To enhance image editing consistency, we introduce an
improved multi-task training paradigm that incorporates not only traditional
text-to-image (T2I) and text-image-to-image (TI2I) tasks but also
image-to-image (I2I) reconstruction, effectively aligning the latent
representations between Qwen2.5-VL and MMDiT. Furthermore, we separately feed
the original image into Qwen2.5-VL and the VAE encoder to obtain semantic and
reconstructive representations, respectively. This dual-encoding mechanism
enables the editing module to strike a balance between preserving semantic
consistency and maintaining visual fidelity. Qwen-Image achieves
state-of-the-art performance, demonstrating its strong capabilities in both
image generation and editing across multiple benchmarks.