ChatPaper.aiChatPaper

Авторегрессионная генерация изображений с рандомизированным параллельным декодированием

Autoregressive Image Generation with Randomized Parallel Decoding

March 13, 2025
Авторы: Haopeng Li, Jinyue Yang, Guoqi Li, Huan Wang
cs.AI

Аннотация

Мы представляем ARPG — новую визуальную авторегрессионную модель, которая обеспечивает рандомизированное параллельное генерирование, устраняя присущие ограничения традиционных подходов, основанных на растровом порядке. Эти подходы снижают эффективность вывода и способность к обобщению в условиях zero-shot из-за их последовательного, заранее заданного порядка генерации токенов. Наше ключевое наблюдение заключается в том, что эффективное моделирование с произвольным порядком требует явного руководства для определения позиции следующего предсказываемого токена. Для этого мы предлагаем новый фреймворк управляемого декодирования, который разделяет позиционное руководство и представление контента, кодируя их отдельно как запросы и пары ключ-значение. Путем непосредственного включения этого руководства в механизм каузального внимания наш подход позволяет полностью случайный порядок обучения и генерации, устраняя необходимость в двунаправленном внимании. В результате ARPG легко обобщается на задачи zero-shot, такие как восстановление изображений, расширение изображений и увеличение разрешения. Кроме того, модель поддерживает параллельный вывод, одновременно обрабатывая несколько запросов с использованием общего кэша ключ-значение. На тестовом наборе данных ImageNet-1K 256 наш подход достигает показателя FID 1.94 всего за 64 шага выборки, обеспечивая более чем 20-кратное увеличение пропускной способности при сокращении потребления памяти более чем на 75% по сравнению с недавними репрезентативными авторегрессионными моделями аналогичного масштаба.
English
We introduce ARPG, a novel visual autoregressive model that enables randomized parallel generation, addressing the inherent limitations of conventional raster-order approaches, which hinder inference efficiency and zero-shot generalization due to their sequential, predefined token generation order. Our key insight is that effective random-order modeling necessitates explicit guidance for determining the position of the next predicted token. To this end, we propose a novel guided decoding framework that decouples positional guidance from content representation, encoding them separately as queries and key-value pairs. By directly incorporating this guidance into the causal attention mechanism, our approach enables fully random-order training and generation, eliminating the need for bidirectional attention. Consequently, ARPG readily generalizes to zero-shot tasks such as image inpainting, outpainting, and resolution expansion. Furthermore, it supports parallel inference by concurrently processing multiple queries using a shared KV cache. On the ImageNet-1K 256 benchmark, our approach attains an FID of 1.94 with only 64 sampling steps, achieving over a 20-fold increase in throughput while reducing memory consumption by over 75% compared to representative recent autoregressive models at a similar scale.
PDF82March 14, 2025