ChatPaper.aiChatPaper

Relatório Técnico do Qwen-Image

Qwen-Image Technical Report

August 4, 2025
Autores: Chenfei Wu, Jiahao Li, Jingren Zhou, Junyang Lin, Kaiyuan Gao, Kun Yan, Sheng-ming Yin, Shuai Bai, Xiao Xu, Yilei Chen, Yuxiang Chen, Zecheng Tang, Zekai Zhang, Zhengyi Wang, An Yang, Bowen Yu, Chen Cheng, Dayiheng Liu, Deqing Li, Hang Zhang, Hao Meng, Hu Wei, Jingyuan Ni, Kai Chen, Kuan Cao, Liang Peng, Lin Qu, Minggang Wu, Peng Wang, Shuting Yu, Tingkun Wen, Wensen Feng, Xiaoxiao Xu, Yi Wang, Yichang Zhang, Yongqiang Zhu, Yujia Wu, Yuxuan Cai, Zenan Liu
cs.AI

Resumo

Apresentamos o Qwen-Image, um modelo base de geração de imagens da série Qwen que alcança avanços significativos na renderização de textos complexos e na edição precisa de imagens. Para enfrentar os desafios da renderização de textos complexos, projetamos um pipeline de dados abrangente que inclui coleta de dados em larga escala, filtragem, anotação, síntese e balanceamento. Além disso, adotamos uma estratégia de treinamento progressivo que começa com a renderização de não-texto para texto, evolui de entradas textuais simples para complexas e gradualmente escala para descrições em nível de parágrafo. Essa abordagem de aprendizado curricular aprimora substancialmente as capacidades nativas de renderização de texto do modelo. Como resultado, o Qwen-Image não apenas se destaca em idiomas alfabéticos como o inglês, mas também alcança progressos notáveis em idiomas logográficos mais desafiadores, como o chinês. Para melhorar a consistência na edição de imagens, introduzimos um paradigma de treinamento multitarefa aprimorado que incorpora não apenas as tarefas tradicionais de texto para imagem (T2I) e texto-imagem para imagem (TI2I), mas também a reconstrução de imagem para imagem (I2I), alinhando efetivamente as representações latentes entre o Qwen2.5-VL e o MMDiT. Além disso, alimentamos separadamente a imagem original no Qwen2.5-VL e no codificador VAE para obter representações semânticas e reconstrutivas, respectivamente. Esse mecanismo de codificação dupla permite que o módulo de edição equilibre a preservação da consistência semântica e a manutenção da fidelidade visual. O Qwen-Image alcança desempenho de ponta, demonstrando suas fortes capacidades tanto na geração quanto na edição de imagens em diversos benchmarks.
English
We present Qwen-Image, an image generation foundation model in the Qwen series that achieves significant advances in complex text rendering and precise image editing. To address the challenges of complex text rendering, we design a comprehensive data pipeline that includes large-scale data collection, filtering, annotation, synthesis, and balancing. Moreover, we adopt a progressive training strategy that starts with non-text-to-text rendering, evolves from simple to complex textual inputs, and gradually scales up to paragraph-level descriptions. This curriculum learning approach substantially enhances the model's native text rendering capabilities. As a result, Qwen-Image not only performs exceptionally well in alphabetic languages such as English, but also achieves remarkable progress on more challenging logographic languages like Chinese. To enhance image editing consistency, we introduce an improved multi-task training paradigm that incorporates not only traditional text-to-image (T2I) and text-image-to-image (TI2I) tasks but also image-to-image (I2I) reconstruction, effectively aligning the latent representations between Qwen2.5-VL and MMDiT. Furthermore, we separately feed the original image into Qwen2.5-VL and the VAE encoder to obtain semantic and reconstructive representations, respectively. This dual-encoding mechanism enables the editing module to strike a balance between preserving semantic consistency and maintaining visual fidelity. Qwen-Image achieves state-of-the-art performance, demonstrating its strong capabilities in both image generation and editing across multiple benchmarks.
PDF2463August 5, 2025