ChatPaper.aiChatPaper

Uniendo tokens continuos y discretos para la generación visual autorregresiva

Bridging Continuous and Discrete Tokens for Autoregressive Visual Generation

March 20, 2025
Autores: Yuqing Wang, Zhijie Lin, Yao Teng, Yuanzhi Zhu, Shuhuai Ren, Jiashi Feng, Xihui Liu
cs.AI

Resumen

Los modelos de generación visual autorregresivos suelen depender de tokenizadores para comprimir imágenes en tokens que pueden predecirse secuencialmente. Existe un dilema fundamental en la representación de tokens: los tokens discretos permiten un modelado directo con la función de pérdida de entropía cruzada estándar, pero sufren de pérdida de información e inestabilidad en el entrenamiento del tokenizador; los tokens continuos preservan mejor los detalles visuales, pero requieren un modelado complejo de distribuciones, lo que complica el pipeline de generación. En este artículo, proponemos TokenBridge, que cierra esta brecha al mantener la fuerte capacidad de representación de los tokens continuos mientras preserva la simplicidad de modelado de los tokens discretos. Para lograrlo, desacoplamos la discretización del proceso de entrenamiento del tokenizador mediante una cuantización post-entrenamiento que obtiene directamente tokens discretos a partir de representaciones continuas. Específicamente, introducimos una estrategia de cuantización por dimensión que discretiza de manera independiente cada dimensión de características, junto con un mecanismo de predicción autorregresivo ligero que modela eficientemente el gran espacio de tokens resultante. Experimentos extensivos muestran que nuestro enfoque logra una calidad de reconstrucción y generación comparable a los métodos continuos mientras utiliza predicción categórica estándar. Este trabajo demuestra que unir los paradigmas discreto y continuo puede aprovechar efectivamente las fortalezas de ambos enfoques, proporcionando una dirección prometedora para la generación visual de alta calidad con un modelado autorregresivo simple. Página del proyecto: https://yuqingwang1029.github.io/TokenBridge.
English
Autoregressive visual generation models typically rely on tokenizers to compress images into tokens that can be predicted sequentially. A fundamental dilemma exists in token representation: discrete tokens enable straightforward modeling with standard cross-entropy loss, but suffer from information loss and tokenizer training instability; continuous tokens better preserve visual details, but require complex distribution modeling, complicating the generation pipeline. In this paper, we propose TokenBridge, which bridges this gap by maintaining the strong representation capacity of continuous tokens while preserving the modeling simplicity of discrete tokens. To achieve this, we decouple discretization from the tokenizer training process through post-training quantization that directly obtains discrete tokens from continuous representations. Specifically, we introduce a dimension-wise quantization strategy that independently discretizes each feature dimension, paired with a lightweight autoregressive prediction mechanism that efficiently model the resulting large token space. Extensive experiments show that our approach achieves reconstruction and generation quality on par with continuous methods while using standard categorical prediction. This work demonstrates that bridging discrete and continuous paradigms can effectively harness the strengths of both approaches, providing a promising direction for high-quality visual generation with simple autoregressive modeling. Project page: https://yuqingwang1029.github.io/TokenBridge.

Summary

AI-Generated Summary

PDF354March 24, 2025