HART: Эффективная визуальная генерация с гибридным авторегрессивным трансформером
HART: Efficient Visual Generation with Hybrid Autoregressive Transformer
October 14, 2024
Авторы: Haotian Tang, Yecheng Wu, Shang Yang, Enze Xie, Junsong Chen, Junyu Chen, Zhuoyang Zhang, Han Cai, Yao Lu, Song Han
cs.AI
Аннотация
Мы представляем гибридный авторегрессионный трансформер (Hybrid Autoregressive Transformer, HART), авторегрессионную (AR) модель генерации изображений способную напрямую создавать изображения размером 1024x1024, не уступающие моделям диффузии по качеству генерации изображений. Существующие AR модели сталкиваются с ограничениями из-за низкого качества восстановления изображений их дискретными токенизаторами, а также из-за высоких затрат на обучение при создании изображений размером 1024px. Для решения этих проблем мы представляем гибридный токенизатор, который декомпозирует непрерывные латенты из автокодировщика на две компоненты: дискретные токены, представляющие общую картину, и непрерывные токены, представляющие остаточные компоненты, которые нельзя представить дискретными токенами. Дискретная компонента моделируется масштабируемой дискретной AR моделью с разрешением, в то время как непрерывная компонента обучается легким модулем диффузии остатков с всего 37 миллионами параметров. По сравнению с дискретным VAR токенизатором, наш гибридный подход улучшает FID восстановления с 2.11 до 0.30 на MJHQ-30K, что приводит к улучшению FID генерации на 31% с 7.85 до 5.38. HART также превосходит современные модели диффузии как по FID, так и по показателю CLIP, обладая при этом более высокой производительностью в 4.5-7.7 раз и более низкими MACs в 6.9-13.4 раза. Наш код доступен по ссылке https://github.com/mit-han-lab/hart.
English
We introduce Hybrid Autoregressive Transformer (HART), an autoregressive (AR)
visual generation model capable of directly generating 1024x1024 images,
rivaling diffusion models in image generation quality. Existing AR models face
limitations due to the poor image reconstruction quality of their discrete
tokenizers and the prohibitive training costs associated with generating 1024px
images. To address these challenges, we present the hybrid tokenizer, which
decomposes the continuous latents from the autoencoder into two components:
discrete tokens representing the big picture and continuous tokens representing
the residual components that cannot be represented by the discrete tokens. The
discrete component is modeled by a scalable-resolution discrete AR model, while
the continuous component is learned with a lightweight residual diffusion
module with only 37M parameters. Compared with the discrete-only VAR tokenizer,
our hybrid approach improves reconstruction FID from 2.11 to 0.30 on MJHQ-30K,
leading to a 31% generation FID improvement from 7.85 to 5.38. HART also
outperforms state-of-the-art diffusion models in both FID and CLIP score, with
4.5-7.7x higher throughput and 6.9-13.4x lower MACs. Our code is open sourced
at https://github.com/mit-han-lab/hart.Summary
AI-Generated Summary