ChatPaper.aiChatPaper

Modelado Autoregresivo Vecinal para la Generación Visual Eficiente

Neighboring Autoregressive Modeling for Efficient Visual Generation

March 12, 2025
Autores: Yefei He, Yuanyu He, Shaoxuan He, Feng Chen, Hong Zhou, Kaipeng Zhang, Bohan Zhuang
cs.AI

Resumen

Los modelos visuales autorregresivos suelen seguir un paradigma de "predicción del siguiente token" en orden de rastreo, lo cual pasa por alto la localidad espacial y temporal inherente al contenido visual. Específicamente, los tokens visuales exhiben correlaciones significativamente más fuertes con sus tokens adyacentes espacial o temporalmente en comparación con aquellos que están distantes. En este artículo, proponemos Modelado Autorregresivo de Vecindad (NAR), un paradigma novedoso que formula la generación visual autorregresiva como un procedimiento de expansión progresiva, siguiendo un mecanismo de "predicción del siguiente vecino" de cerca a lejos. Partiendo de un token inicial, los tokens restantes se decodifican en orden ascendente de su distancia Manhattan desde el token inicial en el espacio espacio-temporal, expandiendo progresivamente el límite de la región decodificada. Para permitir la predicción paralela de múltiples tokens adyacentes en el espacio espacio-temporal, introducimos un conjunto de cabezales de decodificación orientados por dimensión, cada uno prediciendo el siguiente token a lo largo de una dimensión mutuamente ortogonal. Durante la inferencia, todos los tokens adyacentes a los tokens decodificados se procesan en paralelo, reduciendo sustancialmente los pasos de avance del modelo para la generación. Los experimentos en ImageNet256x256 y UCF101 demuestran que NAR logra un rendimiento 2.4 veces y 8.6 veces mayor respectivamente, mientras obtiene puntuaciones FID/FVD superiores tanto para tareas de generación de imágenes como de videos en comparación con el enfoque PAR-4X. Al evaluar en el benchmark de generación de texto a imagen GenEval, NAR con 0.8B parámetros supera a Chameleon-7B mientras utiliza apenas 0.4 de los datos de entrenamiento. El código está disponible en https://github.com/ThisisBillhe/NAR.
English
Visual autoregressive models typically adhere to a raster-order ``next-token prediction" paradigm, which overlooks the spatial and temporal locality inherent in visual content. Specifically, visual tokens exhibit significantly stronger correlations with their spatially or temporally adjacent tokens compared to those that are distant. In this paper, we propose Neighboring Autoregressive Modeling (NAR), a novel paradigm that formulates autoregressive visual generation as a progressive outpainting procedure, following a near-to-far ``next-neighbor prediction" mechanism. Starting from an initial token, the remaining tokens are decoded in ascending order of their Manhattan distance from the initial token in the spatial-temporal space, progressively expanding the boundary of the decoded region. To enable parallel prediction of multiple adjacent tokens in the spatial-temporal space, we introduce a set of dimension-oriented decoding heads, each predicting the next token along a mutually orthogonal dimension. During inference, all tokens adjacent to the decoded tokens are processed in parallel, substantially reducing the model forward steps for generation. Experiments on ImageNet256times 256 and UCF101 demonstrate that NAR achieves 2.4times and 8.6times higher throughput respectively, while obtaining superior FID/FVD scores for both image and video generation tasks compared to the PAR-4X approach. When evaluating on text-to-image generation benchmark GenEval, NAR with 0.8B parameters outperforms Chameleon-7B while using merely 0.4 of the training data. Code is available at https://github.com/ThisisBillhe/NAR.

Summary

AI-Generated Summary

PDF83March 17, 2025