Rapport Technique sur Qwen-Image

papers.abstract

Nous présentons Qwen-Image, un modèle de base pour la génération d'images de la série Qwen, qui réalise des avancées significatives dans le rendu de textes complexes et l'édition précise d'images. Pour relever les défis du rendu de textes complexes, nous concevons un pipeline de données complet incluant la collecte à grande échelle, le filtrage, l'annotation, la synthèse et l'équilibrage des données. De plus, nous adoptons une stratégie d'entraînement progressive qui commence par le rendu de non-texte à texte, évolue des entrées textuelles simples vers des entrées complexes, et s'étend progressivement jusqu'aux descriptions au niveau paragraphe. Cette approche d'apprentissage curriculaire améliore considérablement les capacités natives de rendu de texte du modèle. En conséquence, Qwen-Image excelle non seulement dans les langues alphabétiques comme l'anglais, mais réalise également des progrès remarquables dans des langues logographiques plus complexes comme le chinois. Pour améliorer la cohérence de l'édition d'images, nous introduisons un paradigme d'entraînement multi-tâches amélioré qui intègre non seulement les tâches traditionnelles de texte-à-image (T2I) et texte-image-à-image (TI2I), mais aussi la reconstruction image-à-image (I2I), alignant efficacement les représentations latentes entre Qwen2.5-VL et MMDiT. Par ailleurs, nous alimentons séparément l'image originale dans Qwen2.5-VL et l'encodeur VAE pour obtenir respectivement des représentations sémantiques et reconstructives. Ce mécanisme de double encodage permet au module d'édition de trouver un équilibre entre la préservation de la cohérence sémantique et le maintien de la fidélité visuelle. Qwen-Image atteint des performances de pointe, démontrant ses fortes capacités à la fois en génération et en édition d'images sur plusieurs benchmarks.

English

We present Qwen-Image, an image generation foundation model in the Qwen series that achieves significant advances in complex text rendering and precise image editing. To address the challenges of complex text rendering, we design a comprehensive data pipeline that includes large-scale data collection, filtering, annotation, synthesis, and balancing. Moreover, we adopt a progressive training strategy that starts with non-text-to-text rendering, evolves from simple to complex textual inputs, and gradually scales up to paragraph-level descriptions. This curriculum learning approach substantially enhances the model's native text rendering capabilities. As a result, Qwen-Image not only performs exceptionally well in alphabetic languages such as English, but also achieves remarkable progress on more challenging logographic languages like Chinese. To enhance image editing consistency, we introduce an improved multi-task training paradigm that incorporates not only traditional text-to-image (T2I) and text-image-to-image (TI2I) tasks but also image-to-image (I2I) reconstruction, effectively aligning the latent representations between Qwen2.5-VL and MMDiT. Furthermore, we separately feed the original image into Qwen2.5-VL and the VAE encoder to obtain semantic and reconstructive representations, respectively. This dual-encoding mechanism enables the editing module to strike a balance between preserving semantic consistency and maintaining visual fidelity. Qwen-Image achieves state-of-the-art performance, demonstrating its strong capabilities in both image generation and editing across multiple benchmarks.

Rapport Technique sur Qwen-Image

Qwen-Image Technical Report

papers.abstract

Support