Informe Técnico de Qwen-Image
Qwen-Image Technical Report
August 4, 2025
Autores: Chenfei Wu, Jiahao Li, Jingren Zhou, Junyang Lin, Kaiyuan Gao, Kun Yan, Sheng-ming Yin, Shuai Bai, Xiao Xu, Yilei Chen, Yuxiang Chen, Zecheng Tang, Zekai Zhang, Zhengyi Wang, An Yang, Bowen Yu, Chen Cheng, Dayiheng Liu, Deqing Li, Hang Zhang, Hao Meng, Hu Wei, Jingyuan Ni, Kai Chen, Kuan Cao, Liang Peng, Lin Qu, Minggang Wu, Peng Wang, Shuting Yu, Tingkun Wen, Wensen Feng, Xiaoxiao Xu, Yi Wang, Yichang Zhang, Yongqiang Zhu, Yujia Wu, Yuxuan Cai, Zenan Liu
cs.AI
Resumen
Presentamos Qwen-Image, un modelo base de generación de imágenes de la serie Qwen que logra avances significativos en la representación de texto complejo y la edición precisa de imágenes. Para abordar los desafíos de la representación de texto complejo, diseñamos una canalización de datos integral que incluye recopilación de datos a gran escala, filtrado, anotación, síntesis y equilibrio. Además, adoptamos una estrategia de entrenamiento progresivo que comienza con la representación de no texto a texto, evoluciona desde entradas textuales simples hasta complejas, y escala gradualmente hasta descripciones a nivel de párrafo. Este enfoque de aprendizaje curricular mejora sustancialmente las capacidades nativas de representación de texto del modelo. Como resultado, Qwen-Image no solo se desempeña excepcionalmente bien en lenguas alfabéticas como el inglés, sino que también logra un progreso notable en lenguas logográficas más desafiantes como el chino. Para mejorar la consistencia en la edición de imágenes, introducimos un paradigma mejorado de entrenamiento multitarea que incorpora no solo las tareas tradicionales de texto a imagen (T2I) y texto-imagen a imagen (TI2I), sino también la reconstrucción de imagen a imagen (I2I), alineando efectivamente las representaciones latentes entre Qwen2.5-VL y MMDiT. Además, alimentamos por separado la imagen original en Qwen2.5-VL y el codificador VAE para obtener representaciones semánticas y reconstructivas, respectivamente. Este mecanismo de doble codificación permite que el módulo de edición logre un equilibrio entre preservar la consistencia semántica y mantener la fidelidad visual. Qwen-Image alcanza un rendimiento de vanguardia, demostrando sus sólidas capacidades tanto en la generación como en la edición de imágenes en múltiples benchmarks.
English
We present Qwen-Image, an image generation foundation model in the Qwen
series that achieves significant advances in complex text rendering and precise
image editing. To address the challenges of complex text rendering, we design a
comprehensive data pipeline that includes large-scale data collection,
filtering, annotation, synthesis, and balancing. Moreover, we adopt a
progressive training strategy that starts with non-text-to-text rendering,
evolves from simple to complex textual inputs, and gradually scales up to
paragraph-level descriptions. This curriculum learning approach substantially
enhances the model's native text rendering capabilities. As a result,
Qwen-Image not only performs exceptionally well in alphabetic languages such as
English, but also achieves remarkable progress on more challenging logographic
languages like Chinese. To enhance image editing consistency, we introduce an
improved multi-task training paradigm that incorporates not only traditional
text-to-image (T2I) and text-image-to-image (TI2I) tasks but also
image-to-image (I2I) reconstruction, effectively aligning the latent
representations between Qwen2.5-VL and MMDiT. Furthermore, we separately feed
the original image into Qwen2.5-VL and the VAE encoder to obtain semantic and
reconstructive representations, respectively. This dual-encoding mechanism
enables the editing module to strike a balance between preserving semantic
consistency and maintaining visual fidelity. Qwen-Image achieves
state-of-the-art performance, demonstrating its strong capabilities in both
image generation and editing across multiple benchmarks.