ChatPaper.aiChatPaper

Generazione Scalabile di Immagini Autoregressive con Mamba

Scalable Autoregressive Image Generation with Mamba

August 22, 2024
Autori: Haopeng Li, Jinyue Yang, Kexin Wang, Xuerui Qiu, Yuhong Chou, Xin Li, Guoqi Li
cs.AI

Abstract

Presentiamo AiM, un modello generativo di immagini autoregressivo (AR) basato sull'architettura Mamba. AiM utilizza Mamba, un innovativo modello a spazio di stati caratterizzato da prestazioni eccezionali nella modellazione di sequenze lunghe con complessità temporale lineare, per sostituire i comunemente utilizzati Transformer nei modelli AR di generazione di immagini, con l'obiettivo di ottenere sia una qualità di generazione superiore che una velocità di inferenza migliorata. A differenza dei metodi esistenti che adattano Mamba per gestire segnali bidimensionali tramite scansione multidirezionale, AiM utilizza direttamente il paradigma di previsione del token successivo per la generazione autoregressiva di immagini. Questo approccio evita la necessità di modifiche estese per consentire a Mamba di apprendere rappresentazioni spaziali 2D. Implementando modifiche semplici ma strategicamente mirate per i compiti di generazione visiva, preserviamo la struttura centrale di Mamba, sfruttando appieno le sue efficienti capacità di modellazione di sequenze lunghe e la sua scalabilità. Forniamo modelli AiM di varie dimensioni, con conteggi di parametri che vanno da 148M a 1.3B. Sul benchmark ImageNet1K 256*256, il nostro miglior modello AiM raggiunge un FID di 2.21, superando tutti i modelli AR esistenti con conteggi di parametri comparabili e dimostrando una significativa competitività rispetto ai modelli di diffusione, con una velocità di inferenza da 2 a 10 volte più veloce. Il codice è disponibile all'indirizzo https://github.com/hp-l33/AiM.
English
We introduce AiM, an autoregressive (AR) image generative model based on Mamba architecture. AiM employs Mamba, a novel state-space model characterized by its exceptional performance for long-sequence modeling with linear time complexity, to supplant the commonly utilized Transformers in AR image generation models, aiming to achieve both superior generation quality and enhanced inference speed. Unlike existing methods that adapt Mamba to handle two-dimensional signals via multi-directional scan, AiM directly utilizes the next-token prediction paradigm for autoregressive image generation. This approach circumvents the need for extensive modifications to enable Mamba to learn 2D spatial representations. By implementing straightforward yet strategically targeted modifications for visual generative tasks, we preserve Mamba's core structure, fully exploiting its efficient long-sequence modeling capabilities and scalability. We provide AiM models in various scales, with parameter counts ranging from 148M to 1.3B. On the ImageNet1K 256*256 benchmark, our best AiM model achieves a FID of 2.21, surpassing all existing AR models of comparable parameter counts and demonstrating significant competitiveness against diffusion models, with 2 to 10 times faster inference speed. Code is available at https://github.com/hp-l33/AiM
PDF262November 16, 2024