Más allá del Siguiente Token: Predicción de Siguiente-X para la Generación Visual Autoregresiva
Beyond Next-Token: Next-X Prediction for Autoregressive Visual Generation
February 27, 2025
Autores: Sucheng Ren, Qihang Yu, Ju He, Xiaohui Shen, Alan Yuille, Liang-Chieh Chen
cs.AI
Resumen
El modelado autoregresivo (AR), conocido por su paradigma de predicción de siguiente token, sustenta los modelos generativos de lenguaje y visión de vanguardia. Tradicionalmente, un "token" se trata como la unidad de predicción más pequeña, a menudo un símbolo discreto en lenguaje o un parche cuantizado en visión. Sin embargo, la definición óptima de token para estructuras de imagen 2D sigue siendo una pregunta abierta. Además, los modelos AR sufren de sesgo de exposición, donde el forzamiento del profesor durante el entrenamiento conduce a la acumulación de errores en la inferencia. En este documento, proponemos xAR, un marco AR generalizado que extiende la noción de un token a una entidad X, que puede representar un token de parche individual, una celda (un agrupamiento k veces k de parches vecinos), una submuestra (un agrupamiento no local de parches distantes), una escala (resolución de gruesa a fina), o incluso una imagen completa. Además, reformulamos la clasificación de token discreto como regresión continua de entidad, aprovechando métodos de coincidencia de flujo en cada paso AR. Este enfoque condiciona el entrenamiento en entidades ruidosas en lugar de tokens de verdad, lo que conduce al Aprendizaje de Contexto Ruidoso, que alivia efectivamente el sesgo de exposición. Como resultado, xAR ofrece dos ventajas clave: (1) permite unidades de predicción flexibles que capturan diferentes granularidades contextuales y estructuras espaciales, y (2) mitiga el sesgo de exposición al evitar depender del forzamiento del profesor. En la evaluación de generación de ImageNet-256, nuestro modelo base, xAR-B (172M), supera a DiT-XL/SiT-XL (675M) logrando una inferencia 20 veces más rápida. Mientras tanto, xAR-H establece un nuevo estado del arte con un FID de 1.24, funcionando 2.2 veces más rápido que el modelo anteriormente mejor clasificado sin depender de módulos de visión fundamentales (por ejemplo, DINOv2) o muestreo avanzado de intervalos de guía.
English
Autoregressive (AR) modeling, known for its next-token prediction paradigm,
underpins state-of-the-art language and visual generative models.
Traditionally, a ``token'' is treated as the smallest prediction unit, often a
discrete symbol in language or a quantized patch in vision. However, the
optimal token definition for 2D image structures remains an open question.
Moreover, AR models suffer from exposure bias, where teacher forcing during
training leads to error accumulation at inference. In this paper, we propose
xAR, a generalized AR framework that extends the notion of a token to an entity
X, which can represent an individual patch token, a cell (a ktimes k
grouping of neighboring patches), a subsample (a non-local grouping of distant
patches), a scale (coarse-to-fine resolution), or even a whole image.
Additionally, we reformulate discrete token classification as
continuous entity regression, leveraging flow-matching methods at each
AR step. This approach conditions training on noisy entities instead of ground
truth tokens, leading to Noisy Context Learning, which effectively alleviates
exposure bias. As a result, xAR offers two key advantages: (1) it enables
flexible prediction units that capture different contextual granularity and
spatial structures, and (2) it mitigates exposure bias by avoiding reliance on
teacher forcing. On ImageNet-256 generation benchmark, our base model, xAR-B
(172M), outperforms DiT-XL/SiT-XL (675M) while achieving 20times faster
inference. Meanwhile, xAR-H sets a new state-of-the-art with an FID of 1.24,
running 2.2times faster than the previous best-performing model without
relying on vision foundation modules (\eg, DINOv2) or advanced guidance
interval sampling.Summary
AI-Generated Summary