Modelagem Autoregressiva de Vizinhos para Geração Visual Eficiente
Neighboring Autoregressive Modeling for Efficient Visual Generation
March 12, 2025
Autores: Yefei He, Yuanyu He, Shaoxuan He, Feng Chen, Hong Zhou, Kaipeng Zhang, Bohan Zhuang
cs.AI
Resumo
Modelos autoregressivos visuais geralmente seguem um paradigma de "previsão do próximo token" em ordem raster, que ignora a localidade espacial e temporal inerente ao conteúdo visual. Especificamente, os tokens visuais exibem correlações significativamente mais fortes com seus tokens adjacentes espacial ou temporalmente em comparação com aqueles que estão distantes. Neste artigo, propomos o Modelamento Autoregressivo de Vizinhos (NAR), um novo paradigma que formula a geração visual autoregressiva como um procedimento de expansão progressiva, seguindo um mecanismo de "previsão do próximo vizinho" de perto para longe. Começando com um token inicial, os tokens restantes são decodificados em ordem crescente de sua distância de Manhattan do token inicial no espaço espaço-temporal, expandindo progressivamente o limite da região decodificada. Para permitir a previsão paralela de múltiplos tokens adjacentes no espaço espaço-temporal, introduzimos um conjunto de cabeças de decodificação orientadas por dimensão, cada uma prevendo o próximo token ao longo de uma dimensão mutuamente ortogonal. Durante a inferência, todos os tokens adjacentes aos tokens decodificados são processados em paralelo, reduzindo substancialmente os passos de avanço do modelo para geração. Experimentos no ImageNet256x256 e UCF101 demonstram que o NAR alcança um throughput 2,4x e 8,6x maior, respectivamente, enquanto obtém pontuações FID/FVD superiores para tarefas de geração de imagens e vídeos em comparação com a abordagem PAR-4X. Ao avaliar no benchmark de geração de texto para imagem GenEval, o NAR com 0,8B de parâmetros supera o Chameleon-7B enquanto utiliza apenas 0,4 dos dados de treinamento. O código está disponível em https://github.com/ThisisBillhe/NAR.
English
Visual autoregressive models typically adhere to a raster-order ``next-token
prediction" paradigm, which overlooks the spatial and temporal locality
inherent in visual content. Specifically, visual tokens exhibit significantly
stronger correlations with their spatially or temporally adjacent tokens
compared to those that are distant. In this paper, we propose Neighboring
Autoregressive Modeling (NAR), a novel paradigm that formulates autoregressive
visual generation as a progressive outpainting procedure, following a
near-to-far ``next-neighbor prediction" mechanism. Starting from an initial
token, the remaining tokens are decoded in ascending order of their Manhattan
distance from the initial token in the spatial-temporal space, progressively
expanding the boundary of the decoded region. To enable parallel prediction of
multiple adjacent tokens in the spatial-temporal space, we introduce a set of
dimension-oriented decoding heads, each predicting the next token along a
mutually orthogonal dimension. During inference, all tokens adjacent to the
decoded tokens are processed in parallel, substantially reducing the model
forward steps for generation. Experiments on ImageNet256times 256 and UCF101
demonstrate that NAR achieves 2.4times and 8.6times higher throughput
respectively, while obtaining superior FID/FVD scores for both image and video
generation tasks compared to the PAR-4X approach. When evaluating on
text-to-image generation benchmark GenEval, NAR with 0.8B parameters
outperforms Chameleon-7B while using merely 0.4 of the training data. Code is
available at https://github.com/ThisisBillhe/NAR.Summary
AI-Generated Summary