Rapporto Tecnico di Qwen-Image

Abstract

Presentiamo Qwen-Image, un modello di base per la generazione di immagini della serie Qwen che raggiunge progressi significativi nel rendering complesso di testo e nell'editing preciso delle immagini. Per affrontare le sfide del rendering complesso di testo, progettiamo una pipeline di dati completa che include la raccolta su larga scala, il filtraggio, l'annotazione, la sintesi e il bilanciamento dei dati. Inoltre, adottiamo una strategia di addestramento progressivo che inizia con il rendering da non-testo a testo, evolve da input testuali semplici a complessi e scala gradualmente fino a descrizioni a livello di paragrafo. Questo approccio di apprendimento curriculare migliora sostanzialmente le capacità native di rendering del testo del modello. Di conseguenza, Qwen-Image non solo si comporta eccezionalmente bene con lingue alfabetiche come l'inglese, ma raggiunge anche progressi notevoli con lingue logografiche più impegnative come il cinese. Per migliorare la coerenza nell'editing delle immagini, introduciamo un paradigma di addestramento multi-task migliorato che incorpora non solo i tradizionali task di testo-immagine (T2I) e testo-immagine-immagine (TI2I), ma anche la ricostruzione immagine-immagine (I2I), allineando efficacemente le rappresentazioni latenti tra Qwen2.5-VL e MMDiT. Inoltre, alimentiamo separatamente l'immagine originale in Qwen2.5-VL e nell'encoder VAE per ottenere rispettivamente rappresentazioni semantiche e ricostruttive. Questo meccanismo di doppia codifica consente al modulo di editing di bilanciare la coerenza semantica con la fedeltà visiva. Qwen-Image raggiunge prestazioni all'avanguardia, dimostrando forti capacità sia nella generazione che nell'editing delle immagini su più benchmark.

English

We present Qwen-Image, an image generation foundation model in the Qwen series that achieves significant advances in complex text rendering and precise image editing. To address the challenges of complex text rendering, we design a comprehensive data pipeline that includes large-scale data collection, filtering, annotation, synthesis, and balancing. Moreover, we adopt a progressive training strategy that starts with non-text-to-text rendering, evolves from simple to complex textual inputs, and gradually scales up to paragraph-level descriptions. This curriculum learning approach substantially enhances the model's native text rendering capabilities. As a result, Qwen-Image not only performs exceptionally well in alphabetic languages such as English, but also achieves remarkable progress on more challenging logographic languages like Chinese. To enhance image editing consistency, we introduce an improved multi-task training paradigm that incorporates not only traditional text-to-image (T2I) and text-image-to-image (TI2I) tasks but also image-to-image (I2I) reconstruction, effectively aligning the latent representations between Qwen2.5-VL and MMDiT. Furthermore, we separately feed the original image into Qwen2.5-VL and the VAE encoder to obtain semantic and reconstructive representations, respectively. This dual-encoding mechanism enables the editing module to strike a balance between preserving semantic consistency and maintaining visual fidelity. Qwen-Image achieves state-of-the-art performance, demonstrating its strong capabilities in both image generation and editing across multiple benchmarks.

Rapporto Tecnico di Qwen-Image

Qwen-Image Technical Report

Abstract

Support