Qwen-Image-VAE-2.0 Technisch Rapport

Samenvatting

Wij presenteren Qwen-Image-VAE-2.0, een suite van Variational Autoencoders (VAE's) met hoge compressie die aanzienlijke vooruitgang boeken in zowel reconstructiegetrouwheid als diffuseerbaarheid. Om de reconstructieknelpunten van hoge compressie aan te pakken, hanteren we een verbeterde architectuur met Global Skip Connections (GSC) en uitgebreide latente kanalen. Bovendien schalen we de training naar miljarden afbeeldingen en integreren we een synthetische rendering-engine om de prestaties in tekstrijke scenario's te verbeteren. Om de convergentie-uitdagingen van de hoogdimensionale latente ruimte aan te gaan, implementeren we een verbeterde semantische afstemmingsstrategie die de latente ruimte zeer geschikt maakt voor diffusiemodellering. Om de computationele efficiëntie te optimaliseren, maken we gebruik van een asymmetrische en aandachtsvrije encoder-decoder backbone om de coderingskosten te minimaliseren. We presenteren een uitgebreide evaluatie van Qwen-Image-VAE-2.0 op openbare reconstructiebenchmarks. Om de prestaties in tekstrijke scenario's te evalueren, introduceren we OmniDoc-TokenBench, een nieuwe benchmark bestaande uit een diverse verzameling echte documenten, gekoppeld aan gespecialiseerde op OCR gebaseerde evaluatiemetrieken. Qwen-Image-VAE-2.0 bereikt state-of-the-art reconstructieprestaties en toont uitzonderlijke capaciteiten in zowel algemene domeinen als tekstrijke scenario's bij hoge compressieverhoudingen. Bovendien laten downstream DiT-experimenten zien dat onze modellen superieure diffuseerbaarheid bezitten, waardoor de convergentie aanzienlijk wordt versneld in vergelijking met bestaande baselines met hoge compressie. Deze resultaten vestigen Qwen-Image-VAE-2.0 als een toonaangevend model met hoge compressie, superieure reconstructie en uitzonderlijke diffuseerbaarheid.

English

We present Qwen-Image-VAE-2.0, a suite of high-compression Variational Autoencoders (VAEs) that achieve significant advances in both reconstruction fidelity and diffusability. To address the reconstruction bottlenecks of high compression, we adopt an improved architecture featuring Global Skip Connections (GSC) and expanded latent channels. Moreover, we scale training to billions of images and incorporate a synthetic rendering engine to improve performance in text-rich scenarios. To tackle the convergence challenges of high-dimensional latent space, we implement an enhanced semantic alignment strategy to make the latent space highly amenable to diffusion modeling. To optimize computational efficiency, we leverage an asymmetric and attention-free encoder-decoder backbone to minimize encoding overhead. We present a comprehensive evaluation of Qwen-Image-VAE-2.0 on public reconstruction benchmarks. To evaluate performance in text-rich scenarios, we propose OmniDoc-TokenBench, a new benchmark comprising a diverse collection of real-world documents coupled with specialized OCR-based evaluation metrics. Qwen-Image-VAE-2.0 achieves state-of-the-art reconstruction performance, demonstrating exceptional capabilities in both general domains and text-rich scenarios at high compression ratio. Furthermore, downstream DiT experiments reveal our models possess superior diffusability, significantly accelerating convergence compared to existing high-compression baselines. These establish Qwen-Image-VAE-2.0 as a leading model with high compression, superior reconstruction, and exceptional diffusability.