Modellazione Autoregressiva Vicinale per la Generazione Visiva Efficiente
Neighboring Autoregressive Modeling for Efficient Visual Generation
March 12, 2025
Autori: Yefei He, Yuanyu He, Shaoxuan He, Feng Chen, Hong Zhou, Kaipeng Zhang, Bohan Zhuang
cs.AI
Abstract
I modelli autoregressivi visivi tipicamente aderiscono a un paradigma di "predizione del token successivo" in ordine raster, che trascura la località spaziale e temporale intrinseca nel contenuto visivo. Nello specifico, i token visivi mostrano correlazioni significativamente più forti con i token adiacenti spazialmente o temporalmente rispetto a quelli distanti. In questo articolo, proponiamo il Neighboring Autoregressive Modeling (NAR), un paradigma innovativo che formula la generazione visiva autoregressiva come una procedura di outpainting progressivo, seguendo un meccanismo di "predizione del vicino successivo" da vicino a lontano. Partendo da un token iniziale, i restanti token vengono decodificati in ordine crescente della loro distanza di Manhattan dal token iniziale nello spazio spazio-temporale, espandendo progressivamente il confine della regione decodificata. Per consentire la predizione parallela di più token adiacenti nello spazio spazio-temporale, introduciamo un insieme di teste di decodifica orientate alla dimensione, ciascuna delle quali predice il token successivo lungo una dimensione mutualmente ortogonale. Durante l'inferenza, tutti i token adiacenti ai token decodificati vengono elaborati in parallelo, riducendo sostanzialmente i passi di avanzamento del modello per la generazione. Gli esperimenti su ImageNet256x256 e UCF101 dimostrano che NAR raggiunge rispettivamente un throughput 2,4 volte e 8,6 volte superiore, ottenendo punteggi FID/FVD migliori sia per i compiti di generazione di immagini che di video rispetto all'approccio PAR-4X. Quando valutato sul benchmark di generazione da testo a immagine GenEval, NAR con 0,8 miliardi di parametri supera Chameleon-7B utilizzando solo 0,4 dei dati di addestramento. Il codice è disponibile all'indirizzo https://github.com/ThisisBillhe/NAR.
English
Visual autoregressive models typically adhere to a raster-order ``next-token
prediction" paradigm, which overlooks the spatial and temporal locality
inherent in visual content. Specifically, visual tokens exhibit significantly
stronger correlations with their spatially or temporally adjacent tokens
compared to those that are distant. In this paper, we propose Neighboring
Autoregressive Modeling (NAR), a novel paradigm that formulates autoregressive
visual generation as a progressive outpainting procedure, following a
near-to-far ``next-neighbor prediction" mechanism. Starting from an initial
token, the remaining tokens are decoded in ascending order of their Manhattan
distance from the initial token in the spatial-temporal space, progressively
expanding the boundary of the decoded region. To enable parallel prediction of
multiple adjacent tokens in the spatial-temporal space, we introduce a set of
dimension-oriented decoding heads, each predicting the next token along a
mutually orthogonal dimension. During inference, all tokens adjacent to the
decoded tokens are processed in parallel, substantially reducing the model
forward steps for generation. Experiments on ImageNet256times 256 and UCF101
demonstrate that NAR achieves 2.4times and 8.6times higher throughput
respectively, while obtaining superior FID/FVD scores for both image and video
generation tasks compared to the PAR-4X approach. When evaluating on
text-to-image generation benchmark GenEval, NAR with 0.8B parameters
outperforms Chameleon-7B while using merely 0.4 of the training data. Code is
available at https://github.com/ThisisBillhe/NAR.