Voorbij Next-Token: Next-X Voorspelling voor Autoregressieve Visuele Generatie
Beyond Next-Token: Next-X Prediction for Autoregressive Visual Generation
February 27, 2025
Auteurs: Sucheng Ren, Qihang Yu, Ju He, Xiaohui Shen, Alan Yuille, Liang-Chieh Chen
cs.AI
Samenvatting
Autoregressieve (AR) modellering, bekend om zijn paradigma voor voorspelling van het volgende token, vormt de basis voor toonaangevende taal- en visuele generatieve modellen. Traditioneel wordt een "token" behandeld als de kleinste voorspellingsunit, vaak een discreet symbool in taal of een gekwantiseerd blok in visie. De optimale definitie van een token voor 2D beeldstructuren blijft echter een open vraagstuk. Bovendien hebben AR-modellen last van blootstellingsbias, waarbij het gebruik van teacher forcing tijdens training leidt tot foutenopbouw bij inferentie. In dit artikel stellen we xAR voor, een gegeneraliseerd AR-framework dat het begrip van een token uitbreidt naar een entiteit X, die een individueel bloktoken, een cel (een k keer k groepering van naburige blokken), een subsample (een niet-lokale groepering van verre blokken), een schaal (grof-naar-fijne resolutie) of zelfs een heel beeld kan vertegenwoordigen. Bovendien hervormen we discrete tokenclassificatie als continue entiteitsregressie, waarbij we flow-matching methoden gebruiken bij elke AR-stap. Deze aanpak conditioneert training op ruisachtige entiteiten in plaats van grondwaarheidtokens, wat leidt tot Noisy Context Learning, dat blootstellingsbias effectief verlicht. Als gevolg hiervan biedt xAR twee belangrijke voordelen: (1) het maakt flexibele voorspellingsunits mogelijk die verschillende contextuele granulariteit en ruimtelijke structuren vastleggen, en (2) het vermindert blootstellingsbias door niet te vertrouwen op teacher forcing. Op de ImageNet-256 generatie benchmark presteert ons basismodel, xAR-B (172M), beter dan DiT-XL/SiT-XL (675M) en bereikt het 20 keer snellere inferentie. Ondertussen zet xAR-H een nieuwe state-of-the-art neer met een FID van 1.24, waarbij het 2.2 keer sneller werkt dan het vorige best presterende model zonder te vertrouwen op visuele funderingsmodules (bijv. DINOv2) of geavanceerde begeleide intervalsteekproeven.
English
Autoregressive (AR) modeling, known for its next-token prediction paradigm,
underpins state-of-the-art language and visual generative models.
Traditionally, a ``token'' is treated as the smallest prediction unit, often a
discrete symbol in language or a quantized patch in vision. However, the
optimal token definition for 2D image structures remains an open question.
Moreover, AR models suffer from exposure bias, where teacher forcing during
training leads to error accumulation at inference. In this paper, we propose
xAR, a generalized AR framework that extends the notion of a token to an entity
X, which can represent an individual patch token, a cell (a ktimes k
grouping of neighboring patches), a subsample (a non-local grouping of distant
patches), a scale (coarse-to-fine resolution), or even a whole image.
Additionally, we reformulate discrete token classification as
continuous entity regression, leveraging flow-matching methods at each
AR step. This approach conditions training on noisy entities instead of ground
truth tokens, leading to Noisy Context Learning, which effectively alleviates
exposure bias. As a result, xAR offers two key advantages: (1) it enables
flexible prediction units that capture different contextual granularity and
spatial structures, and (2) it mitigates exposure bias by avoiding reliance on
teacher forcing. On ImageNet-256 generation benchmark, our base model, xAR-B
(172M), outperforms DiT-XL/SiT-XL (675M) while achieving 20times faster
inference. Meanwhile, xAR-H sets a new state-of-the-art with an FID of 1.24,
running 2.2times faster than the previous best-performing model without
relying on vision foundation modules (\eg, DINOv2) or advanced guidance
interval sampling.Summary
AI-Generated Summary