Rapporto Tecnico di Qwen-Image
Qwen-Image Technical Report
August 4, 2025
Autori: Chenfei Wu, Jiahao Li, Jingren Zhou, Junyang Lin, Kaiyuan Gao, Kun Yan, Sheng-ming Yin, Shuai Bai, Xiao Xu, Yilei Chen, Yuxiang Chen, Zecheng Tang, Zekai Zhang, Zhengyi Wang, An Yang, Bowen Yu, Chen Cheng, Dayiheng Liu, Deqing Li, Hang Zhang, Hao Meng, Hu Wei, Jingyuan Ni, Kai Chen, Kuan Cao, Liang Peng, Lin Qu, Minggang Wu, Peng Wang, Shuting Yu, Tingkun Wen, Wensen Feng, Xiaoxiao Xu, Yi Wang, Yichang Zhang, Yongqiang Zhu, Yujia Wu, Yuxuan Cai, Zenan Liu
cs.AI
Abstract
Presentiamo Qwen-Image, un modello di base per la generazione di immagini della serie Qwen che raggiunge progressi significativi nel rendering complesso di testo e nell'editing preciso delle immagini. Per affrontare le sfide del rendering complesso di testo, progettiamo una pipeline di dati completa che include la raccolta su larga scala, il filtraggio, l'annotazione, la sintesi e il bilanciamento dei dati. Inoltre, adottiamo una strategia di addestramento progressivo che inizia con il rendering da non-testo a testo, evolve da input testuali semplici a complessi e scala gradualmente fino a descrizioni a livello di paragrafo. Questo approccio di apprendimento curriculare migliora sostanzialmente le capacità native di rendering del testo del modello. Di conseguenza, Qwen-Image non solo si comporta eccezionalmente bene con lingue alfabetiche come l'inglese, ma raggiunge anche progressi notevoli con lingue logografiche più impegnative come il cinese. Per migliorare la coerenza nell'editing delle immagini, introduciamo un paradigma di addestramento multi-task migliorato che incorpora non solo i tradizionali task di testo-immagine (T2I) e testo-immagine-immagine (TI2I), ma anche la ricostruzione immagine-immagine (I2I), allineando efficacemente le rappresentazioni latenti tra Qwen2.5-VL e MMDiT. Inoltre, alimentiamo separatamente l'immagine originale in Qwen2.5-VL e nell'encoder VAE per ottenere rispettivamente rappresentazioni semantiche e ricostruttive. Questo meccanismo di doppia codifica consente al modulo di editing di bilanciare la coerenza semantica con la fedeltà visiva. Qwen-Image raggiunge prestazioni all'avanguardia, dimostrando forti capacità sia nella generazione che nell'editing delle immagini su più benchmark.
English
We present Qwen-Image, an image generation foundation model in the Qwen
series that achieves significant advances in complex text rendering and precise
image editing. To address the challenges of complex text rendering, we design a
comprehensive data pipeline that includes large-scale data collection,
filtering, annotation, synthesis, and balancing. Moreover, we adopt a
progressive training strategy that starts with non-text-to-text rendering,
evolves from simple to complex textual inputs, and gradually scales up to
paragraph-level descriptions. This curriculum learning approach substantially
enhances the model's native text rendering capabilities. As a result,
Qwen-Image not only performs exceptionally well in alphabetic languages such as
English, but also achieves remarkable progress on more challenging logographic
languages like Chinese. To enhance image editing consistency, we introduce an
improved multi-task training paradigm that incorporates not only traditional
text-to-image (T2I) and text-image-to-image (TI2I) tasks but also
image-to-image (I2I) reconstruction, effectively aligning the latent
representations between Qwen2.5-VL and MMDiT. Furthermore, we separately feed
the original image into Qwen2.5-VL and the VAE encoder to obtain semantic and
reconstructive representations, respectively. This dual-encoding mechanism
enables the editing module to strike a balance between preserving semantic
consistency and maintaining visual fidelity. Qwen-Image achieves
state-of-the-art performance, demonstrating its strong capabilities in both
image generation and editing across multiple benchmarks.