ChatPaper.aiChatPaper

Generación de Imágenes Autoregresivas Escalables con Mamba

Scalable Autoregressive Image Generation with Mamba

August 22, 2024
Autores: Haopeng Li, Jinyue Yang, Kexin Wang, Xuerui Qiu, Yuhong Chou, Xin Li, Guoqi Li
cs.AI

Resumen

Presentamos AiM, un modelo generativo de imágenes autoregresivo (AR) basado en la arquitectura Mamba. AiM emplea Mamba, un modelo novedoso de espacio de estados caracterizado por su rendimiento excepcional en modelado de secuencias largas con complejidad temporal lineal, para reemplazar a los Transformadores comúnmente utilizados en modelos de generación de imágenes AR, con el objetivo de lograr tanto una calidad de generación superior como una velocidad de inferencia mejorada. A diferencia de los métodos existentes que adaptan Mamba para manejar señales bidimensionales a través de exploración multidireccional, AiM utiliza directamente el paradigma de predicción de siguiente token para la generación de imágenes autoregresivas. Este enfoque evita la necesidad de modificaciones extensas para permitir que Mamba aprenda representaciones espaciales 2D. Al implementar modificaciones sencillas pero estratégicamente dirigidas para tareas generativas visuales, preservamos la estructura central de Mamba, explotando completamente sus eficientes capacidades de modelado de secuencias largas y escalabilidad. Proporcionamos modelos AiM en diversas escalas, con recuentos de parámetros que van desde 148M hasta 1.3B. En la evaluación ImageNet1K 256*256, nuestro mejor modelo AiM logra un FID de 2.21, superando a todos los modelos AR existentes con recuentos de parámetros comparables y demostrando una competitividad significativa frente a los modelos de difusión, con una velocidad de inferencia de 2 a 10 veces más rápida. El código está disponible en https://github.com/hp-l33/AiM
English
We introduce AiM, an autoregressive (AR) image generative model based on Mamba architecture. AiM employs Mamba, a novel state-space model characterized by its exceptional performance for long-sequence modeling with linear time complexity, to supplant the commonly utilized Transformers in AR image generation models, aiming to achieve both superior generation quality and enhanced inference speed. Unlike existing methods that adapt Mamba to handle two-dimensional signals via multi-directional scan, AiM directly utilizes the next-token prediction paradigm for autoregressive image generation. This approach circumvents the need for extensive modifications to enable Mamba to learn 2D spatial representations. By implementing straightforward yet strategically targeted modifications for visual generative tasks, we preserve Mamba's core structure, fully exploiting its efficient long-sequence modeling capabilities and scalability. We provide AiM models in various scales, with parameter counts ranging from 148M to 1.3B. On the ImageNet1K 256*256 benchmark, our best AiM model achieves a FID of 2.21, surpassing all existing AR models of comparable parameter counts and demonstrating significant competitiveness against diffusion models, with 2 to 10 times faster inference speed. Code is available at https://github.com/hp-l33/AiM

Summary

AI-Generated Summary

PDF272November 16, 2024