Авторегрессионная генерация изображений с рандомизированным параллельным декодированием
Autoregressive Image Generation with Randomized Parallel Decoding
March 13, 2025
Авторы: Haopeng Li, Jinyue Yang, Guoqi Li, Huan Wang
cs.AI
Аннотация
Мы представляем ARPG — новую визуальную авторегрессионную модель, которая обеспечивает рандомизированное параллельное генерирование, устраняя присущие ограничения традиционных подходов, основанных на растровом порядке. Эти подходы снижают эффективность вывода и способность к обобщению в условиях zero-shot из-за их последовательного, заранее заданного порядка генерации токенов. Наше ключевое наблюдение заключается в том, что эффективное моделирование с произвольным порядком требует явного руководства для определения позиции следующего предсказываемого токена. Для этого мы предлагаем новый фреймворк управляемого декодирования, который разделяет позиционное руководство и представление контента, кодируя их отдельно как запросы и пары ключ-значение. Путем непосредственного включения этого руководства в механизм каузального внимания наш подход позволяет полностью случайный порядок обучения и генерации, устраняя необходимость в двунаправленном внимании. В результате ARPG легко обобщается на задачи zero-shot, такие как восстановление изображений, расширение изображений и увеличение разрешения. Кроме того, модель поддерживает параллельный вывод, одновременно обрабатывая несколько запросов с использованием общего кэша ключ-значение. На тестовом наборе данных ImageNet-1K 256 наш подход достигает показателя FID 1.94 всего за 64 шага выборки, обеспечивая более чем 20-кратное увеличение пропускной способности при сокращении потребления памяти более чем на 75% по сравнению с недавними репрезентативными авторегрессионными моделями аналогичного масштаба.
English
We introduce ARPG, a novel visual autoregressive model that enables
randomized parallel generation, addressing the inherent limitations of
conventional raster-order approaches, which hinder inference efficiency and
zero-shot generalization due to their sequential, predefined token generation
order. Our key insight is that effective random-order modeling necessitates
explicit guidance for determining the position of the next predicted token. To
this end, we propose a novel guided decoding framework that decouples
positional guidance from content representation, encoding them separately as
queries and key-value pairs. By directly incorporating this guidance into the
causal attention mechanism, our approach enables fully random-order training
and generation, eliminating the need for bidirectional attention. Consequently,
ARPG readily generalizes to zero-shot tasks such as image inpainting,
outpainting, and resolution expansion. Furthermore, it supports parallel
inference by concurrently processing multiple queries using a shared KV cache.
On the ImageNet-1K 256 benchmark, our approach attains an FID of 1.94 with only
64 sampling steps, achieving over a 20-fold increase in throughput while
reducing memory consumption by over 75% compared to representative recent
autoregressive models at a similar scale.