ChatPaper.aiChatPaper

Schaalbare Autoregressieve Beeldgeneratie met Mamba

Scalable Autoregressive Image Generation with Mamba

August 22, 2024
Auteurs: Haopeng Li, Jinyue Yang, Kexin Wang, Xuerui Qiu, Yuhong Chou, Xin Li, Guoqi Li
cs.AI

Samenvatting

We introduceren AiM, een autoregressief (AR) beeldgeneratiemodel gebaseerd op de Mamba-architectuur. AiM maakt gebruik van Mamba, een innovatief state-space model dat zich kenmerkt door zijn uitzonderlijke prestaties voor het modelleren van lange sequenties met lineaire tijdcomplexiteit, om de veelgebruikte Transformers in AR-beeldgeneratiemodellen te vervangen, met als doel zowel superieure generatiekwaliteit als verbeterde inferentiesnelheid te bereiken. In tegenstelling tot bestaande methoden die Mamba aanpassen om tweedimensionale signalen te verwerken via multidirectionele scans, maakt AiM direct gebruik van het next-token prediction paradigma voor autoregressieve beeldgeneratie. Deze aanpak omzeilt de noodzaak van uitgebreide aanpassingen om Mamba in staat te stellen 2D-ruimtelijke representaties te leren. Door eenvoudige maar strategisch gerichte aanpassingen te implementeren voor visuele generatieve taken, behouden we de kernstructuur van Mamba en benutten we volledig zijn efficiënte mogelijkheden voor het modelleren van lange sequenties en schaalbaarheid. We bieden AiM-modellen aan in verschillende schalen, met parameteraantallen variërend van 148M tot 1.3B. Op de ImageNet1K 256*256 benchmark behaalt ons beste AiM-model een FID van 2.21, waarmee het alle bestaande AR-modellen met vergelijkbare parameteraantallen overtreft en significante concurrentie biedt tegen diffusiemodellen, met een 2 tot 10 keer snellere inferentiesnelheid. Code is beschikbaar op https://github.com/hp-l33/AiM.
English
We introduce AiM, an autoregressive (AR) image generative model based on Mamba architecture. AiM employs Mamba, a novel state-space model characterized by its exceptional performance for long-sequence modeling with linear time complexity, to supplant the commonly utilized Transformers in AR image generation models, aiming to achieve both superior generation quality and enhanced inference speed. Unlike existing methods that adapt Mamba to handle two-dimensional signals via multi-directional scan, AiM directly utilizes the next-token prediction paradigm for autoregressive image generation. This approach circumvents the need for extensive modifications to enable Mamba to learn 2D spatial representations. By implementing straightforward yet strategically targeted modifications for visual generative tasks, we preserve Mamba's core structure, fully exploiting its efficient long-sequence modeling capabilities and scalability. We provide AiM models in various scales, with parameter counts ranging from 148M to 1.3B. On the ImageNet1K 256*256 benchmark, our best AiM model achieves a FID of 2.21, surpassing all existing AR models of comparable parameter counts and demonstrating significant competitiveness against diffusion models, with 2 to 10 times faster inference speed. Code is available at https://github.com/hp-l33/AiM

Summary

AI-Generated Summary

PDF272November 16, 2024