ChatPaper.aiChatPaper

다음 토큰 넘어서: 자기회귀적 시각 생성을 위한 다음-X 예측

Beyond Next-Token: Next-X Prediction for Autoregressive Visual Generation

February 27, 2025
저자: Sucheng Ren, Qihang Yu, Ju He, Xiaohui Shen, Alan Yuille, Liang-Chieh Chen
cs.AI

초록

자기회귀(AR) 모델링은 다음 토큰 예측 패러다임으로 알려져 있으며 최첨단 언어 및 시각 생성 모델을 뒷받침합니다. 기존에는 "토큰"이 종종 언어의 이산 기호나 시각에서 양자화된 패치와 같이 가장 작은 예측 단위로 취급되었습니다. 그러나 2D 이미지 구조에 대한 최적의 토큰 정의는 여전히 미해결된 문제입니다. 또한 AR 모델은 훈련 중 교사 강제로 인해 추론 시 오류가 누적되는 노출 편향 문제가 있습니다. 본 논문에서는 토큰을 개체 X로 확장하는 일반화된 AR 프레임워크인 xAR을 제안합니다. 이 X는 개별 패치 토큰, 셀(이웃 패치의 k x k 그룹화), 서브샘플(먼 거리 패치의 비지역 그룹화), 스케일(거친 해상도부터 미세한 해상도까지) 또는 전체 이미지를 나타낼 수 있습니다. 또한 이산 토큰 분류를 연속적인 개체 회귀로 재정의하여 각 AR 단계에서 흐름 일치 방법을 활용합니다. 이 접근 방식은 훈련을 노이즈가 있는 개체에 조건을 걸어 실제 토큰이 아닌 것에 대해 훈련하므로 노출 편향을 효과적으로 완화하는 Noisy Context Learning을 이끌어냅니다. 결과적으로 xAR은 두 가지 주요 이점을 제공합니다: (1) 다양한 문맥적 세분성과 공간 구조를 포착하는 유연한 예측 단위를 가능하게 하며, (2) 교사 강제에 의존하지 않고 노출 편향을 완화합니다. ImageNet-256 생성 벤치마크에서 우리의 베이스 모델인 xAR-B(172M)는 DiT-XL/SiT-XL(675M)을 능가하면서 추론 속도가 20배 빠릅니다. 한편, xAR-H는 FID가 1.24로 새로운 최첨단을 세우며, 시각 기반 모듈(DINOv2 등)이나 고급 가이드 간격 샘플링에 의존하지 않고 이전 최고 성능 모델보다 2.2배 빠른 속도로 작동합니다.
English
Autoregressive (AR) modeling, known for its next-token prediction paradigm, underpins state-of-the-art language and visual generative models. Traditionally, a ``token'' is treated as the smallest prediction unit, often a discrete symbol in language or a quantized patch in vision. However, the optimal token definition for 2D image structures remains an open question. Moreover, AR models suffer from exposure bias, where teacher forcing during training leads to error accumulation at inference. In this paper, we propose xAR, a generalized AR framework that extends the notion of a token to an entity X, which can represent an individual patch token, a cell (a ktimes k grouping of neighboring patches), a subsample (a non-local grouping of distant patches), a scale (coarse-to-fine resolution), or even a whole image. Additionally, we reformulate discrete token classification as continuous entity regression, leveraging flow-matching methods at each AR step. This approach conditions training on noisy entities instead of ground truth tokens, leading to Noisy Context Learning, which effectively alleviates exposure bias. As a result, xAR offers two key advantages: (1) it enables flexible prediction units that capture different contextual granularity and spatial structures, and (2) it mitigates exposure bias by avoiding reliance on teacher forcing. On ImageNet-256 generation benchmark, our base model, xAR-B (172M), outperforms DiT-XL/SiT-XL (675M) while achieving 20times faster inference. Meanwhile, xAR-H sets a new state-of-the-art with an FID of 1.24, running 2.2times faster than the previous best-performing model without relying on vision foundation modules (\eg, DINOv2) or advanced guidance interval sampling.

Summary

AI-Generated Summary

PDF162February 28, 2025