Relatório Técnico do Qwen-Image-VAE-2.0

Resumo

Apresentamos o Qwen-Image-VAE-2.0, um conjunto de Autoencoders Variacionais (VAEs) de alta compressão que alcançam avanços significativos tanto na fidelidade de reconstrução quanto na difusibilidade. Para lidar com os gargalos de reconstrução da alta compressão, adotamos uma arquitetura aprimorada que apresenta Conexões de Salto Globais (Global Skip Connections, GSC) e canais latentes expandidos. Além disso, escalamos o treinamento para bilhões de imagens e incorporamos um motor de renderização sintética para melhorar o desempenho em cenários ricos em texto. Para enfrentar os desafios de convergência do espaço latente de alta dimensionalidade, implementamos uma estratégia aprimorada de alinhamento semântico, tornando o espaço latente altamente adequado para modelagem por difusão. Para otimizar a eficiência computacional, utilizamos uma espinha dorsal codificador-decodificador assimétrica e sem atenção, minimizando a sobrecarga de codificação. Apresentamos uma avaliação abrangente do Qwen-Image-VAE-2.0 em benchmarks públicos de reconstrução. Para avaliar o desempenho em cenários ricos em texto, propomos o OmniDoc-TokenBench, um novo benchmark que compreende uma coleção diversificada de documentos reais, combinado com métricas de avaliação especializadas baseadas em OCR (Reconhecimento Óptico de Caracteres). O Qwen-Image-VAE-2.0 atinge o estado da arte em desempenho de reconstrução, demonstrando capacidades excepcionais tanto em domínios gerais quanto em cenários ricos em texto, sob alta taxa de compressão. Além disso, experimentos a jusante com DiT (Transformadores de Difusão) revelam que nossos modelos possuem difusibilidade superior, acelerando significativamente a convergência em comparação com as linhas de base de alta compressão existentes. Esses resultados estabelecem o Qwen-Image-VAE-2.0 como um modelo líder com alta compressão, reconstrução superior e difusibilidade excepcional.

English

We present Qwen-Image-VAE-2.0, a suite of high-compression Variational Autoencoders (VAEs) that achieve significant advances in both reconstruction fidelity and diffusability. To address the reconstruction bottlenecks of high compression, we adopt an improved architecture featuring Global Skip Connections (GSC) and expanded latent channels. Moreover, we scale training to billions of images and incorporate a synthetic rendering engine to improve performance in text-rich scenarios. To tackle the convergence challenges of high-dimensional latent space, we implement an enhanced semantic alignment strategy to make the latent space highly amenable to diffusion modeling. To optimize computational efficiency, we leverage an asymmetric and attention-free encoder-decoder backbone to minimize encoding overhead. We present a comprehensive evaluation of Qwen-Image-VAE-2.0 on public reconstruction benchmarks. To evaluate performance in text-rich scenarios, we propose OmniDoc-TokenBench, a new benchmark comprising a diverse collection of real-world documents coupled with specialized OCR-based evaluation metrics. Qwen-Image-VAE-2.0 achieves state-of-the-art reconstruction performance, demonstrating exceptional capabilities in both general domains and text-rich scenarios at high compression ratio. Furthermore, downstream DiT experiments reveal our models possess superior diffusability, significantly accelerating convergence compared to existing high-compression baselines. These establish Qwen-Image-VAE-2.0 as a leading model with high compression, superior reconstruction, and exceptional diffusability.