Oltre al prossimo token: Predizione del prossimo X per la generazione visuale autoregressiva
Beyond Next-Token: Next-X Prediction for Autoregressive Visual Generation
February 27, 2025
Autori: Sucheng Ren, Qihang Yu, Ju He, Xiaohui Shen, Alan Yuille, Liang-Chieh Chen
cs.AI
Abstract
La modellazione autoregressiva (AR), nota per il suo paradigma di previsione del token successivo, sostiene i modelli generativi di linguaggio e visione all'avanguardia. Tradizionalmente, un "token" è considerato l'unità di previsione più piccola, spesso un simbolo discreto nel linguaggio o una patch quantizzata nella visione. Tuttavia, la definizione ottimale di token per le strutture di immagini 2D rimane una questione aperta. Inoltre, i modelli AR soffrono di un bias di esposizione, dove l'insegnamento forzato durante l'addestramento porta all'accumulo di errori nell'inferenza. In questo articolo, proponiamo xAR, un framework AR generalizzato che estende il concetto di token a un'entità X, che può rappresentare una singola patch, una cella (un raggruppamento k per k di patch vicine), un sottocampionamento (un raggruppamento non locale di patch distanti), una scala (risoluzione da grossolana a fine), o addirittura un'intera immagine. Inoltre, riformuliamo la classificazione discreta del token come regressione continua dell'entità, sfruttando metodi di corrispondenza di flusso ad ogni passo AR. Questo approccio condiziona l'addestramento su entità rumorose anziché su token veri, portando all'apprendimento del contesto rumoroso, che allevia efficacemente il bias di esposizione. Di conseguenza, xAR offre due vantaggi chiave: (1) consente unità di previsione flessibili che catturano diverse granularità contestuali e strutture spaziali, e (2) mitiga il bias di esposizione evitando il ricorso all'insegnamento forzato. Nel benchmark di generazione ImageNet-256, il nostro modello base, xAR-B (172M), supera DiT-XL/SiT-XL (675M) raggiungendo un'inferenza 20 volte più veloce. Nel frattempo, xAR-H stabilisce un nuovo stato dell'arte con un FID di 1.24, funzionando 2.2 volte più velocemente del modello precedentemente più performante senza fare affidamento su moduli di fondazione della visione (ad es. DINOv2) o campionamenti avanzati di intervallo di guida.
English
Autoregressive (AR) modeling, known for its next-token prediction paradigm,
underpins state-of-the-art language and visual generative models.
Traditionally, a ``token'' is treated as the smallest prediction unit, often a
discrete symbol in language or a quantized patch in vision. However, the
optimal token definition for 2D image structures remains an open question.
Moreover, AR models suffer from exposure bias, where teacher forcing during
training leads to error accumulation at inference. In this paper, we propose
xAR, a generalized AR framework that extends the notion of a token to an entity
X, which can represent an individual patch token, a cell (a ktimes k
grouping of neighboring patches), a subsample (a non-local grouping of distant
patches), a scale (coarse-to-fine resolution), or even a whole image.
Additionally, we reformulate discrete token classification as
continuous entity regression, leveraging flow-matching methods at each
AR step. This approach conditions training on noisy entities instead of ground
truth tokens, leading to Noisy Context Learning, which effectively alleviates
exposure bias. As a result, xAR offers two key advantages: (1) it enables
flexible prediction units that capture different contextual granularity and
spatial structures, and (2) it mitigates exposure bias by avoiding reliance on
teacher forcing. On ImageNet-256 generation benchmark, our base model, xAR-B
(172M), outperforms DiT-XL/SiT-XL (675M) while achieving 20times faster
inference. Meanwhile, xAR-H sets a new state-of-the-art with an FID of 1.24,
running 2.2times faster than the previous best-performing model without
relying on vision foundation modules (\eg, DINOv2) or advanced guidance
interval sampling.Summary
AI-Generated Summary