ChatPaper.aiChatPaper

Qwen-Image Technischer Bericht

Qwen-Image Technical Report

August 4, 2025
papers.authors: Chenfei Wu, Jiahao Li, Jingren Zhou, Junyang Lin, Kaiyuan Gao, Kun Yan, Sheng-ming Yin, Shuai Bai, Xiao Xu, Yilei Chen, Yuxiang Chen, Zecheng Tang, Zekai Zhang, Zhengyi Wang, An Yang, Bowen Yu, Chen Cheng, Dayiheng Liu, Deqing Li, Hang Zhang, Hao Meng, Hu Wei, Jingyuan Ni, Kai Chen, Kuan Cao, Liang Peng, Lin Qu, Minggang Wu, Peng Wang, Shuting Yu, Tingkun Wen, Wensen Feng, Xiaoxiao Xu, Yi Wang, Yichang Zhang, Yongqiang Zhu, Yujia Wu, Yuxuan Cai, Zenan Liu
cs.AI

papers.abstract

Wir präsentieren Qwen-Image, ein Bildgenerierungs-Grundmodell der Qwen-Serie, das bedeutende Fortschritte in der komplexen Textdarstellung und präzisen Bildbearbeitung erzielt. Um die Herausforderungen der komplexen Textdarstellung zu bewältigen, entwickeln wir einen umfassenden Datenpipeline, der groß angelegte Datensammlung, Filterung, Annotation, Synthese und Ausbalancierung umfasst. Darüber hinaus verwenden wir eine progressive Trainingsstrategie, die mit nicht-textbasierter Textdarstellung beginnt, sich von einfachen zu komplexen textuellen Eingaben entwickelt und schrittweise auf Absatzbeschreibungen hochskaliert. Dieser Curriculum-Learning-Ansatz verbessert die native Textdarstellungsfähigkeit des Modells erheblich. Infolgedessen zeigt Qwen-Image nicht nur eine außergewöhnliche Leistung bei alphabetischen Sprachen wie Englisch, sondern erzielt auch bemerkenswerte Fortschritte bei anspruchsvolleren logografischen Sprachen wie Chinesisch. Um die Konsistenz der Bildbearbeitung zu verbessern, führen wir ein verbessertes Multi-Task-Trainingsparadigma ein, das nicht nur traditionelle Text-zu-Bild (T2I) und Text-Bild-zu-Bild (TI2I) Aufgaben, sondern auch Bild-zu-Bild (I2I) Rekonstruktion umfasst und effektiv die latenten Repräsentationen zwischen Qwen2.5-VL und MMDiT ausrichtet. Darüber hinaus speisen wir das Originalbild separat in Qwen2.5-VL und den VAE-Encoder ein, um semantische und rekonstruktive Repräsentationen zu erhalten. Dieser Dual-Encoding-Mechanismus ermöglicht es dem Bearbeitungsmodul, ein Gleichgewicht zwischen der Bewahrung semantischer Konsistenz und der Wahrung visueller Treue zu finden. Qwen-Image erreicht state-of-the-art Leistungen und demonstriert seine starken Fähigkeiten in der Bildgenerierung und -bearbeitung über mehrere Benchmarks hinweg.
English
We present Qwen-Image, an image generation foundation model in the Qwen series that achieves significant advances in complex text rendering and precise image editing. To address the challenges of complex text rendering, we design a comprehensive data pipeline that includes large-scale data collection, filtering, annotation, synthesis, and balancing. Moreover, we adopt a progressive training strategy that starts with non-text-to-text rendering, evolves from simple to complex textual inputs, and gradually scales up to paragraph-level descriptions. This curriculum learning approach substantially enhances the model's native text rendering capabilities. As a result, Qwen-Image not only performs exceptionally well in alphabetic languages such as English, but also achieves remarkable progress on more challenging logographic languages like Chinese. To enhance image editing consistency, we introduce an improved multi-task training paradigm that incorporates not only traditional text-to-image (T2I) and text-image-to-image (TI2I) tasks but also image-to-image (I2I) reconstruction, effectively aligning the latent representations between Qwen2.5-VL and MMDiT. Furthermore, we separately feed the original image into Qwen2.5-VL and the VAE encoder to obtain semantic and reconstructive representations, respectively. This dual-encoding mechanism enables the editing module to strike a balance between preserving semantic consistency and maintaining visual fidelity. Qwen-Image achieves state-of-the-art performance, demonstrating its strong capabilities in both image generation and editing across multiple benchmarks.
PDF1612August 5, 2025