Collegare token continui e discreti per la generazione visiva autoregressiva
Bridging Continuous and Discrete Tokens for Autoregressive Visual Generation
March 20, 2025
Autori: Yuqing Wang, Zhijie Lin, Yao Teng, Yuanzhi Zhu, Shuhuai Ren, Jiashi Feng, Xihui Liu
cs.AI
Abstract
I modelli di generazione visiva autoregressivi si basano tipicamente su tokenizer per comprimere le immagini in token che possono essere predetti sequenzialmente. Esiste un dilemma fondamentale nella rappresentazione dei token: i token discreti consentono una modellizzazione diretta con la funzione di perdita di entropia incrociata standard, ma soffrono di perdita di informazioni e instabilità durante l'addestramento del tokenizer; i token continui preservano meglio i dettagli visivi, ma richiedono una modellizzazione complessa delle distribuzioni, complicando la pipeline di generazione. In questo articolo, proponiamo TokenBridge, che colma questa lacuna mantenendo la forte capacità rappresentativa dei token continui preservando al contempo la semplicità di modellizzazione dei token discreti. Per raggiungere questo obiettivo, disaccoppiamo la discretizzazione dal processo di addestramento del tokenizer attraverso una quantizzazione post-addestramento che ottiene direttamente token discreti da rappresentazioni continue. Nello specifico, introduciamo una strategia di quantizzazione dimensionale che discretizza indipendentemente ciascuna dimensione delle feature, abbinata a un meccanismo di predizione autoregressiva leggero che modella in modo efficiente il conseguente ampio spazio di token. Esperimenti estensivi dimostrano che il nostro approccio raggiunge una qualità di ricostruzione e generazione pari a quella dei metodi continui utilizzando la predizione categoriale standard. Questo lavoro dimostra che colmare i paradigmi discreti e continui può sfruttare efficacemente i punti di forza di entrambi gli approcci, fornendo una direzione promettente per la generazione visiva di alta qualità con una semplice modellizzazione autoregressiva. Pagina del progetto: https://yuqingwang1029.github.io/TokenBridge.
English
Autoregressive visual generation models typically rely on tokenizers to
compress images into tokens that can be predicted sequentially. A fundamental
dilemma exists in token representation: discrete tokens enable straightforward
modeling with standard cross-entropy loss, but suffer from information loss and
tokenizer training instability; continuous tokens better preserve visual
details, but require complex distribution modeling, complicating the generation
pipeline. In this paper, we propose TokenBridge, which bridges this gap by
maintaining the strong representation capacity of continuous tokens while
preserving the modeling simplicity of discrete tokens. To achieve this, we
decouple discretization from the tokenizer training process through
post-training quantization that directly obtains discrete tokens from
continuous representations. Specifically, we introduce a dimension-wise
quantization strategy that independently discretizes each feature dimension,
paired with a lightweight autoregressive prediction mechanism that efficiently
model the resulting large token space. Extensive experiments show that our
approach achieves reconstruction and generation quality on par with continuous
methods while using standard categorical prediction. This work demonstrates
that bridging discrete and continuous paradigms can effectively harness the
strengths of both approaches, providing a promising direction for high-quality
visual generation with simple autoregressive modeling. Project page:
https://yuqingwang1029.github.io/TokenBridge.