Соседнее авторегрессионное моделирование для эффективной генерации изображений
Neighboring Autoregressive Modeling for Efficient Visual Generation
March 12, 2025
Авторы: Yefei He, Yuanyu He, Shaoxuan He, Feng Chen, Hong Zhou, Kaipeng Zhang, Bohan Zhuang
cs.AI
Аннотация
Визуальные авторегрессионные модели обычно следуют парадигме «предсказания следующего токена» в растровом порядке, что игнорирует пространственную и временную локальность, присущую визуальному контенту. В частности, визуальные токены демонстрируют значительно более сильные корреляции с их пространственно или временно соседними токенами по сравнению с удалёнными. В данной статье мы предлагаем Neighboring Autoregressive Modeling (NAR), новую парадигму, которая формулирует авторегрессионную генерацию визуального контента как процедуру постепенного расширения (outpainting), следуя механизму «предсказания следующего соседа» от ближнего к дальнему. Начиная с начального токена, оставшиеся токены декодируются в порядке возрастания их манхэттенского расстояния от начального токена в пространственно-временном пространстве, постепенно расширяя границу декодированной области. Чтобы обеспечить параллельное предсказание нескольких соседних токенов в пространственно-временном пространстве, мы вводим набор ориентированных на измерения декодирующих голов, каждая из которых предсказывает следующий токен вдоль взаимно ортогонального измерения. Во время вывода все токены, соседние с декодированными, обрабатываются параллельно, что значительно сокращает количество шагов модели для генерации. Эксперименты на ImageNet256×256 и UCF101 демонстрируют, что NAR достигает в 2,4 и 8,6 раз более высокой пропускной способности соответственно, при этом получая превосходные показатели FID/FVD для задач генерации изображений и видео по сравнению с подходом PAR-4X. При оценке на бенчмарке генерации изображений из текста GenEval, NAR с 0,8 миллиардами параметров превосходит Chameleon-7B, используя лишь 0,4 объёма обучающих данных. Код доступен по адресу https://github.com/ThisisBillhe/NAR.
English
Visual autoregressive models typically adhere to a raster-order ``next-token
prediction" paradigm, which overlooks the spatial and temporal locality
inherent in visual content. Specifically, visual tokens exhibit significantly
stronger correlations with their spatially or temporally adjacent tokens
compared to those that are distant. In this paper, we propose Neighboring
Autoregressive Modeling (NAR), a novel paradigm that formulates autoregressive
visual generation as a progressive outpainting procedure, following a
near-to-far ``next-neighbor prediction" mechanism. Starting from an initial
token, the remaining tokens are decoded in ascending order of their Manhattan
distance from the initial token in the spatial-temporal space, progressively
expanding the boundary of the decoded region. To enable parallel prediction of
multiple adjacent tokens in the spatial-temporal space, we introduce a set of
dimension-oriented decoding heads, each predicting the next token along a
mutually orthogonal dimension. During inference, all tokens adjacent to the
decoded tokens are processed in parallel, substantially reducing the model
forward steps for generation. Experiments on ImageNet256times 256 and UCF101
demonstrate that NAR achieves 2.4times and 8.6times higher throughput
respectively, while obtaining superior FID/FVD scores for both image and video
generation tasks compared to the PAR-4X approach. When evaluating on
text-to-image generation benchmark GenEval, NAR with 0.8B parameters
outperforms Chameleon-7B while using merely 0.4 of the training data. Code is
available at https://github.com/ThisisBillhe/NAR.Summary
AI-Generated Summary