HART: Generación Visual Eficiente con Transformador Autoregresivo Híbrido
HART: Efficient Visual Generation with Hybrid Autoregressive Transformer
October 14, 2024
Autores: Haotian Tang, Yecheng Wu, Shang Yang, Enze Xie, Junsong Chen, Junyu Chen, Zhuoyang Zhang, Han Cai, Yao Lu, Song Han
cs.AI
Resumen
Presentamos Hybrid Autoregressive Transformer (HART), un modelo generativo visual autoregresivo capaz de generar directamente imágenes de 1024x1024, compitiendo con modelos de difusión en calidad de generación de imágenes. Los modelos AR existentes enfrentan limitaciones debido a la pobre calidad de reconstrucción de imágenes de sus tokenizadores discretos y los costos prohibitivos de entrenamiento asociados con la generación de imágenes de 1024px. Para abordar estos desafíos, presentamos el tokenizador híbrido, que descompone los latentes continuos del autoencoder en dos componentes: tokens discretos que representan la imagen general y tokens continuos que representan los componentes residuales que no pueden ser representados por los tokens discretos. El componente discreto es modelado por un modelo AR discreto de resolución escalable, mientras que el componente continuo se aprende con un módulo de difusión residual liviano con solo 37M parámetros. En comparación con el tokenizador VAR solo discreto, nuestro enfoque híbrido mejora el FID de reconstrucción de 2.11 a 0.30 en MJHQ-30K, lo que conlleva a una mejora del FID de generación del 31% de 7.85 a 5.38. HART también supera a los modelos de difusión de última generación tanto en FID como en puntaje CLIP, con un rendimiento 4.5-7.7 veces mayor y un consumo de MACs 6.9-13.4 veces menor. Nuestro código está disponible en https://github.com/mit-han-lab/hart.
English
We introduce Hybrid Autoregressive Transformer (HART), an autoregressive (AR)
visual generation model capable of directly generating 1024x1024 images,
rivaling diffusion models in image generation quality. Existing AR models face
limitations due to the poor image reconstruction quality of their discrete
tokenizers and the prohibitive training costs associated with generating 1024px
images. To address these challenges, we present the hybrid tokenizer, which
decomposes the continuous latents from the autoencoder into two components:
discrete tokens representing the big picture and continuous tokens representing
the residual components that cannot be represented by the discrete tokens. The
discrete component is modeled by a scalable-resolution discrete AR model, while
the continuous component is learned with a lightweight residual diffusion
module with only 37M parameters. Compared with the discrete-only VAR tokenizer,
our hybrid approach improves reconstruction FID from 2.11 to 0.30 on MJHQ-30K,
leading to a 31% generation FID improvement from 7.85 to 5.38. HART also
outperforms state-of-the-art diffusion models in both FID and CLIP score, with
4.5-7.7x higher throughput and 6.9-13.4x lower MACs. Our code is open sourced
at https://github.com/mit-han-lab/hart.Summary
AI-Generated Summary