ChatPaper.aiChatPaper

HART: Geração Visual Eficiente com Transformador Autoregressivo Híbrido

HART: Efficient Visual Generation with Hybrid Autoregressive Transformer

October 14, 2024
Autores: Haotian Tang, Yecheng Wu, Shang Yang, Enze Xie, Junsong Chen, Junyu Chen, Zhuoyang Zhang, Han Cai, Yao Lu, Song Han
cs.AI

Resumo

Apresentamos o Transformer Autoregressivo Híbrido (HART), um modelo de geração visual autoregressivo capaz de gerar diretamente imagens de 1024x1024, rivalizando com modelos de difusão em qualidade de geração de imagens. Modelos autoregressivos existentes enfrentam limitações devido à baixa qualidade de reconstrução de imagem de seus tokenizadores discretos e aos altos custos de treinamento associados à geração de imagens de 1024px. Para enfrentar esses desafios, apresentamos o tokenizador híbrido, que decompõe os latentes contínuos do autoencoder em dois componentes: tokens discretos representando a imagem geral e tokens contínuos representando os componentes residuais que não podem ser representados pelos tokens discretos. O componente discreto é modelado por um modelo AR discreto de resolução escalável, enquanto o componente contínuo é aprendido com um módulo de difusão residual leve com apenas 37M parâmetros. Comparado com o tokenizador VAR apenas discreto, nossa abordagem híbrida melhora o FID de reconstrução de 2,11 para 0,30 no MJHQ-30K, resultando em uma melhoria de 31% no FID de geração de 7,85 para 5,38. O HART também supera os modelos de difusão de ponta tanto em FID quanto em pontuação CLIP, com uma taxa de transferência 4,5-7,7 vezes maior e MACs 6,9-13,4 vezes menores. Nosso código está disponível em código aberto em https://github.com/mit-han-lab/hart.
English
We introduce Hybrid Autoregressive Transformer (HART), an autoregressive (AR) visual generation model capable of directly generating 1024x1024 images, rivaling diffusion models in image generation quality. Existing AR models face limitations due to the poor image reconstruction quality of their discrete tokenizers and the prohibitive training costs associated with generating 1024px images. To address these challenges, we present the hybrid tokenizer, which decomposes the continuous latents from the autoencoder into two components: discrete tokens representing the big picture and continuous tokens representing the residual components that cannot be represented by the discrete tokens. The discrete component is modeled by a scalable-resolution discrete AR model, while the continuous component is learned with a lightweight residual diffusion module with only 37M parameters. Compared with the discrete-only VAR tokenizer, our hybrid approach improves reconstruction FID from 2.11 to 0.30 on MJHQ-30K, leading to a 31% generation FID improvement from 7.85 to 5.38. HART also outperforms state-of-the-art diffusion models in both FID and CLIP score, with 4.5-7.7x higher throughput and 6.9-13.4x lower MACs. Our code is open sourced at https://github.com/mit-han-lab/hart.

Summary

AI-Generated Summary

PDF182November 16, 2024