Über Next-Token hinaus: Next-X Vorhersage für autoregressive visuelle Generierung
Beyond Next-Token: Next-X Prediction for Autoregressive Visual Generation
February 27, 2025
Autoren: Sucheng Ren, Qihang Yu, Ju He, Xiaohui Shen, Alan Yuille, Liang-Chieh Chen
cs.AI
Zusammenfassung
Die autoregressive (AR) Modellierung, bekannt für ihr Paradigma der Vorhersage des nächsten Tokens, bildet die Grundlage für modernste Sprach- und visuelle generative Modelle. Traditionell wird ein "Token" als kleinste Vorhersageeinheit betrachtet, oft ein diskretes Symbol in der Sprache oder ein quantisiertes Patch in der Vision. Die optimale Token-Definition für 2D-Bildstrukturen bleibt jedoch eine offene Frage. Darüber hinaus leiden AR-Modelle unter Expositionsfehler, bei dem das Lehrer-Zwangstraining zu Fehlerakkumulation bei der Inferenz führt. In diesem Papier schlagen wir xAR vor, ein verallgemeinertes AR-Framework, das den Begriff eines Tokens auf eine Entität X erweitert, die ein einzelnes Patch-Token, eine Zelle (eine k mal k Gruppierung benachbarter Patches), eine Unterstichprobe (eine nicht-lokale Gruppierung entfernter Patches), eine Skala (grob bis feine Auflösung) oder sogar ein ganzes Bild darstellen kann. Darüber hinaus formulieren wir die diskrete Token-Klassifizierung als kontinuierliche Entitätsregression um, wobei wir Flussabgleichmethoden bei jedem AR-Schritt nutzen. Dieser Ansatz konditioniert das Training auf rauschhafte Entitäten anstelle von Ground-Truth-Tokens, was zu einem effektiven Abbau des Expositionsfehlers durch Noisy Context Learning führt. Als Ergebnis bietet xAR zwei wesentliche Vorteile: (1) Es ermöglicht flexible Vorhersageeinheiten, die unterschiedliche Kontextgranularität und räumliche Strukturen erfassen, und (2) es mildert den Expositionsfehler, indem es nicht auf das Lehrer-Zwangstraining angewiesen ist. In einem ImageNet-256-Generierungstest übertrifft unser Basismodell, xAR-B (172M), DiT-XL/SiT-XL (675M) und erreicht dabei eine 20-fach schnellere Inferenz. In der Zwischenzeit setzt xAR-H mit einem FID von 1.24 einen neuen State-of-the-Art und läuft 2,2-mal schneller als das zuvor bestperformende Modell, ohne auf Vision Foundation-Module (z. B. DINOv2) oder fortgeschrittene Anleitungsschwellenwertabtastung angewiesen zu sein.
English
Autoregressive (AR) modeling, known for its next-token prediction paradigm,
underpins state-of-the-art language and visual generative models.
Traditionally, a ``token'' is treated as the smallest prediction unit, often a
discrete symbol in language or a quantized patch in vision. However, the
optimal token definition for 2D image structures remains an open question.
Moreover, AR models suffer from exposure bias, where teacher forcing during
training leads to error accumulation at inference. In this paper, we propose
xAR, a generalized AR framework that extends the notion of a token to an entity
X, which can represent an individual patch token, a cell (a ktimes k
grouping of neighboring patches), a subsample (a non-local grouping of distant
patches), a scale (coarse-to-fine resolution), or even a whole image.
Additionally, we reformulate discrete token classification as
continuous entity regression, leveraging flow-matching methods at each
AR step. This approach conditions training on noisy entities instead of ground
truth tokens, leading to Noisy Context Learning, which effectively alleviates
exposure bias. As a result, xAR offers two key advantages: (1) it enables
flexible prediction units that capture different contextual granularity and
spatial structures, and (2) it mitigates exposure bias by avoiding reliance on
teacher forcing. On ImageNet-256 generation benchmark, our base model, xAR-B
(172M), outperforms DiT-XL/SiT-XL (675M) while achieving 20times faster
inference. Meanwhile, xAR-H sets a new state-of-the-art with an FID of 1.24,
running 2.2times faster than the previous best-performing model without
relying on vision foundation modules (\eg, DINOv2) or advanced guidance
interval sampling.Summary
AI-Generated Summary