Соседнее авторегрессионное моделирование для эффективной генерации изображений

Аннотация

Визуальные авторегрессионные модели обычно следуют парадигме «предсказания следующего токена» в растровом порядке, что игнорирует пространственную и временную локальность, присущую визуальному контенту. В частности, визуальные токены демонстрируют значительно более сильные корреляции с их пространственно или временно соседними токенами по сравнению с удалёнными. В данной статье мы предлагаем Neighboring Autoregressive Modeling (NAR), новую парадигму, которая формулирует авторегрессионную генерацию визуального контента как процедуру постепенного расширения (outpainting), следуя механизму «предсказания следующего соседа» от ближнего к дальнему. Начиная с начального токена, оставшиеся токены декодируются в порядке возрастания их манхэттенского расстояния от начального токена в пространственно-временном пространстве, постепенно расширяя границу декодированной области. Чтобы обеспечить параллельное предсказание нескольких соседних токенов в пространственно-временном пространстве, мы вводим набор ориентированных на измерения декодирующих голов, каждая из которых предсказывает следующий токен вдоль взаимно ортогонального измерения. Во время вывода все токены, соседние с декодированными, обрабатываются параллельно, что значительно сокращает количество шагов модели для генерации. Эксперименты на ImageNet256×256 и UCF101 демонстрируют, что NAR достигает в 2,4 и 8,6 раз более высокой пропускной способности соответственно, при этом получая превосходные показатели FID/FVD для задач генерации изображений и видео по сравнению с подходом PAR-4X. При оценке на бенчмарке генерации изображений из текста GenEval, NAR с 0,8 миллиардами параметров превосходит Chameleon-7B, используя лишь 0,4 объёма обучающих данных. Код доступен по адресу https://github.com/ThisisBillhe/NAR.

English

Visual autoregressive models typically adhere to a raster-order ``next-token prediction" paradigm, which overlooks the spatial and temporal locality inherent in visual content. Specifically, visual tokens exhibit significantly stronger correlations with their spatially or temporally adjacent tokens compared to those that are distant. In this paper, we propose Neighboring Autoregressive Modeling (NAR), a novel paradigm that formulates autoregressive visual generation as a progressive outpainting procedure, following a near-to-far ``next-neighbor prediction" mechanism. Starting from an initial token, the remaining tokens are decoded in ascending order of their Manhattan distance from the initial token in the spatial-temporal space, progressively expanding the boundary of the decoded region. To enable parallel prediction of multiple adjacent tokens in the spatial-temporal space, we introduce a set of dimension-oriented decoding heads, each predicting the next token along a mutually orthogonal dimension. During inference, all tokens adjacent to the decoded tokens are processed in parallel, substantially reducing the model forward steps for generation. Experiments on ImageNet256times 256 and UCF101 demonstrate that NAR achieves 2.4times and 8.6times higher throughput respectively, while obtaining superior FID/FVD scores for both image and video generation tasks compared to the PAR-4X approach. When evaluating on text-to-image generation benchmark GenEval, NAR with 0.8B parameters outperforms Chameleon-7B while using merely 0.4 of the training data. Code is available at https://github.com/ThisisBillhe/NAR.

Соседнее авторегрессионное моделирование для эффективной генерации изображений

Neighboring Autoregressive Modeling for Efficient Visual Generation

Аннотация

Support