ChatPaper.aiChatPaper

Au-delà du prochain jeton : Prédiction du prochain X pour la génération visuelle autorégressive

Beyond Next-Token: Next-X Prediction for Autoregressive Visual Generation

February 27, 2025
Auteurs: Sucheng Ren, Qihang Yu, Ju He, Xiaohui Shen, Alan Yuille, Liang-Chieh Chen
cs.AI

Résumé

La modélisation autorégressive (AR), connue pour son paradigme de prédiction du prochain jeton, sous-tend les modèles génératifs de langage et de vision de pointe. Traditionnellement, un "jeton" est traité comme l'unité de prédiction la plus petite, souvent un symbole discret en langage ou un patch quantifié en vision. Cependant, la définition optimale du jeton pour les structures d'image 2D reste une question ouverte. De plus, les modèles AR souffrent d'un biais d'exposition, où l'enseignement forcé pendant l'entraînement entraîne une accumulation d'erreurs lors de l'inférence. Dans cet article, nous proposons xAR, un cadre AR généralisé qui étend la notion d'un jeton à une entité X, pouvant représenter un jeton de patch individuel, une cellule (un regroupement k fois k de patchs voisins), un sous-échantillon (un regroupement non local de patchs distants), une échelle (résolution grossière à fine), voire une image entière. De plus, nous reformulons la classification de jeton discret en une régression d'entité continue, en exploitant des méthodes d'ajustement de flux à chaque étape AR. Cette approche conditionne l'entraînement sur des entités bruyantes au lieu de jetons de vérité terrain, conduisant à un apprentissage de contexte bruyant, qui atténue efficacement le biais d'exposition. En conséquence, xAR offre deux avantages clés : (1) il permet des unités de prédiction flexibles qui capturent différentes granularités contextuelles et structures spatiales, et (2) il atténue le biais d'exposition en évitant de dépendre de l'enseignement forcé. Sur le banc d'essai de génération ImageNet-256, notre modèle de base, xAR-B (172M), surpasse DiT-XL/SiT-XL (675M) tout en réalisant une inférence 20 fois plus rapide. Pendant ce temps, xAR-H établit un nouvel état de l'art avec un FID de 1,24, fonctionnant 2,2 fois plus rapidement que le modèle précédent le plus performant sans dépendre des modules de fondation de vision (par exemple, DINOv2) ou de l'échantillonnage d'intervalle de guidage avancé.
English
Autoregressive (AR) modeling, known for its next-token prediction paradigm, underpins state-of-the-art language and visual generative models. Traditionally, a ``token'' is treated as the smallest prediction unit, often a discrete symbol in language or a quantized patch in vision. However, the optimal token definition for 2D image structures remains an open question. Moreover, AR models suffer from exposure bias, where teacher forcing during training leads to error accumulation at inference. In this paper, we propose xAR, a generalized AR framework that extends the notion of a token to an entity X, which can represent an individual patch token, a cell (a ktimes k grouping of neighboring patches), a subsample (a non-local grouping of distant patches), a scale (coarse-to-fine resolution), or even a whole image. Additionally, we reformulate discrete token classification as continuous entity regression, leveraging flow-matching methods at each AR step. This approach conditions training on noisy entities instead of ground truth tokens, leading to Noisy Context Learning, which effectively alleviates exposure bias. As a result, xAR offers two key advantages: (1) it enables flexible prediction units that capture different contextual granularity and spatial structures, and (2) it mitigates exposure bias by avoiding reliance on teacher forcing. On ImageNet-256 generation benchmark, our base model, xAR-B (172M), outperforms DiT-XL/SiT-XL (675M) while achieving 20times faster inference. Meanwhile, xAR-H sets a new state-of-the-art with an FID of 1.24, running 2.2times faster than the previous best-performing model without relying on vision foundation modules (\eg, DINOv2) or advanced guidance interval sampling.

Summary

AI-Generated Summary

PDF162February 28, 2025