Масштабируемая авторегрессионная генерация изображений с помощью Mamba.

Аннотация

Мы представляем AiM, авторегрессивную (AR) генеративную модель изображений на основе архитектуры Mamba. AiM использует Mamba, новую модель пространства состояний, отличающуюся выдающейся производительностью в моделировании длинных последовательностей с линейной временной сложностью, чтобы заменить широко используемые трансформеры в моделях AR генерации изображений, нацеленных на достижение как превосходного качества генерации, так и улучшенной скорости вывода. В отличие от существующих методов, которые адаптируют Mamba для обработки двумерных сигналов с помощью многонаправленного сканирования, AiM непосредственно использует парадигму предсказания следующего токена для авторегрессивной генерации изображений. Этот подход обходит необходимость в обширных модификациях для обучения Mamba пространственным представлениям в 2D. Путем внедрения простых, но стратегически целенаправленных модификаций для визуальных генеративных задач мы сохраняем основную структуру Mamba, полностью используя его эффективные возможности моделирования длинных последовательностей и масштабируемость. Мы предоставляем модели AiM в различных масштабах с количеством параметров от 148 миллионов до 1.3 миллиарда. На тесте ImageNet1K 256*256 наша лучшая модель AiM достигает значения FID 2.21, превосходя все существующие AR модели с сопоставимым количеством параметров и демонстрируя значительную конкурентоспособность по сравнению с моделями диффузии, обеспечивая скорость вывода в 2-10 раз выше. Код доступен по ссылке https://github.com/hp-l33/AiM

English

We introduce AiM, an autoregressive (AR) image generative model based on Mamba architecture. AiM employs Mamba, a novel state-space model characterized by its exceptional performance for long-sequence modeling with linear time complexity, to supplant the commonly utilized Transformers in AR image generation models, aiming to achieve both superior generation quality and enhanced inference speed. Unlike existing methods that adapt Mamba to handle two-dimensional signals via multi-directional scan, AiM directly utilizes the next-token prediction paradigm for autoregressive image generation. This approach circumvents the need for extensive modifications to enable Mamba to learn 2D spatial representations. By implementing straightforward yet strategically targeted modifications for visual generative tasks, we preserve Mamba's core structure, fully exploiting its efficient long-sequence modeling capabilities and scalability. We provide AiM models in various scales, with parameter counts ranging from 148M to 1.3B. On the ImageNet1K 256*256 benchmark, our best AiM model achieves a FID of 2.21, surpassing all existing AR models of comparable parameter counts and demonstrating significant competitiveness against diffusion models, with 2 to 10 times faster inference speed. Code is available at https://github.com/hp-l33/AiM

Масштабируемая авторегрессионная генерация изображений с помощью Mamba.

Scalable Autoregressive Image Generation with Mamba

Аннотация

Support