ChatPaper.aiChatPaper

Além do Próximo Token: Previsão do Próximo-X para Geração Visual Autoregressiva

Beyond Next-Token: Next-X Prediction for Autoregressive Visual Generation

February 27, 2025
Autores: Sucheng Ren, Qihang Yu, Ju He, Xiaohui Shen, Alan Yuille, Liang-Chieh Chen
cs.AI

Resumo

A modelagem autorregressiva (AR), conhecida por seu paradigma de previsão do próximo token, sustenta os modelos generativos de linguagem e visão de ponta. Tradicionalmente, um "token" é tratado como a menor unidade de previsão, frequentemente um símbolo discreto na linguagem ou um patch quantizado na visão. No entanto, a definição ótima de token para estruturas de imagem 2D permanece uma questão em aberto. Além disso, os modelos AR sofrem viés de exposição, onde o ensino forçado durante o treinamento leva à acumulação de erros na inferência. Neste artigo, propomos xAR, um framework AR generalizado que estende a noção de token para uma entidade X, que pode representar um token de patch individual, uma célula (um agrupamento k vezes k de patches vizinhos), uma subamostra (um agrupamento não local de patches distantes), uma escala (resolução grossa a fina) ou até mesmo uma imagem inteira. Além disso, reformulamos a classificação de token discreto como regressão contínua de entidades, aproveitando métodos de correspondência de fluxo em cada etapa AR. Esta abordagem condiciona o treinamento em entidades ruidosas em vez de tokens de verdade, levando à Aprendizagem de Contexto Ruidoso, que efetivamente alivia o viés de exposição. Como resultado, xAR oferece duas vantagens principais: (1) permite unidades de previsão flexíveis que capturam diferentes granularidades contextuais e estruturas espaciais, e (2) mitiga o viés de exposição evitando a dependência do ensino forçado. No benchmark de geração ImageNet-256, nosso modelo base, xAR-B (172M), supera o DiT-XL/SiT-XL (675M) enquanto alcança uma inferência 20 vezes mais rápida. Enquanto isso, o xAR-H estabelece um novo estado da arte com um FID de 1,24, sendo 2,2 vezes mais rápido que o modelo anterior de melhor desempenho sem depender de módulos de fundação de visão (por exemplo, DINOv2) ou amostragem de intervalo de orientação avançada.
English
Autoregressive (AR) modeling, known for its next-token prediction paradigm, underpins state-of-the-art language and visual generative models. Traditionally, a ``token'' is treated as the smallest prediction unit, often a discrete symbol in language or a quantized patch in vision. However, the optimal token definition for 2D image structures remains an open question. Moreover, AR models suffer from exposure bias, where teacher forcing during training leads to error accumulation at inference. In this paper, we propose xAR, a generalized AR framework that extends the notion of a token to an entity X, which can represent an individual patch token, a cell (a ktimes k grouping of neighboring patches), a subsample (a non-local grouping of distant patches), a scale (coarse-to-fine resolution), or even a whole image. Additionally, we reformulate discrete token classification as continuous entity regression, leveraging flow-matching methods at each AR step. This approach conditions training on noisy entities instead of ground truth tokens, leading to Noisy Context Learning, which effectively alleviates exposure bias. As a result, xAR offers two key advantages: (1) it enables flexible prediction units that capture different contextual granularity and spatial structures, and (2) it mitigates exposure bias by avoiding reliance on teacher forcing. On ImageNet-256 generation benchmark, our base model, xAR-B (172M), outperforms DiT-XL/SiT-XL (675M) while achieving 20times faster inference. Meanwhile, xAR-H sets a new state-of-the-art with an FID of 1.24, running 2.2times faster than the previous best-performing model without relying on vision foundation modules (\eg, DINOv2) or advanced guidance interval sampling.

Summary

AI-Generated Summary

PDF162February 28, 2025