ChatPaper.aiChatPaper

Modélisation Autoregressive de Voisinage pour une Génération Visuelle Efficace

Neighboring Autoregressive Modeling for Efficient Visual Generation

March 12, 2025
Auteurs: Yefei He, Yuanyu He, Shaoxuan He, Feng Chen, Hong Zhou, Kaipeng Zhang, Bohan Zhuang
cs.AI

Résumé

Les modèles visuels autorégressifs suivent généralement un paradigme de « prédiction du prochain jeton » selon un ordre raster, ce qui néglige la localité spatiale et temporelle inhérente au contenu visuel. Plus précisément, les jetons visuels présentent des corrélations significativement plus fortes avec leurs jetons adjacents spatialement ou temporellement qu'avec ceux qui sont éloignés. Dans cet article, nous proposons le Modélisation Autoregressive des Voisins (NAR), un nouveau paradigme qui formule la génération visuelle autoregressive comme un processus de remplissage progressif, suivant un mécanisme de « prédiction du prochain voisin » de près à loin. En partant d'un jeton initial, les jetons restants sont décodés dans l'ordre croissant de leur distance de Manhattan par rapport au jeton initial dans l'espace spatio-temporel, élargissant progressivement la frontière de la région décodée. Pour permettre la prédiction parallèle de plusieurs jetons adjacents dans l'espace spatio-temporel, nous introduisons un ensemble de têtes de décodage orientées par dimension, chacune prédisant le prochain jeton le long d'une dimension mutuellement orthogonale. Pendant l'inférence, tous les jetons adjacents aux jetons décodés sont traités en parallèle, réduisant considérablement les étapes de propagation du modèle pour la génération. Les expériences sur ImageNet256×256 et UCF101 démontrent que NAR atteint respectivement un débit 2,4 fois et 8,6 fois plus élevé, tout en obtenant des scores FID/FVD supérieurs pour les tâches de génération d'images et de vidéos par rapport à l'approche PAR-4X. Lors de l'évaluation sur le benchmark de génération texte-image GenEval, NAR avec 0,8 milliard de paramètres surpasse Chameleon-7B tout en utilisant seulement 0,4 des données d'entraînement. Le code est disponible à l'adresse https://github.com/ThisisBillhe/NAR.
English
Visual autoregressive models typically adhere to a raster-order ``next-token prediction" paradigm, which overlooks the spatial and temporal locality inherent in visual content. Specifically, visual tokens exhibit significantly stronger correlations with their spatially or temporally adjacent tokens compared to those that are distant. In this paper, we propose Neighboring Autoregressive Modeling (NAR), a novel paradigm that formulates autoregressive visual generation as a progressive outpainting procedure, following a near-to-far ``next-neighbor prediction" mechanism. Starting from an initial token, the remaining tokens are decoded in ascending order of their Manhattan distance from the initial token in the spatial-temporal space, progressively expanding the boundary of the decoded region. To enable parallel prediction of multiple adjacent tokens in the spatial-temporal space, we introduce a set of dimension-oriented decoding heads, each predicting the next token along a mutually orthogonal dimension. During inference, all tokens adjacent to the decoded tokens are processed in parallel, substantially reducing the model forward steps for generation. Experiments on ImageNet256times 256 and UCF101 demonstrate that NAR achieves 2.4times and 8.6times higher throughput respectively, while obtaining superior FID/FVD scores for both image and video generation tasks compared to the PAR-4X approach. When evaluating on text-to-image generation benchmark GenEval, NAR with 0.8B parameters outperforms Chameleon-7B while using merely 0.4 of the training data. Code is available at https://github.com/ThisisBillhe/NAR.

Summary

AI-Generated Summary

PDF83March 17, 2025