Generación Visual Autorregresiva Continua mediante Maximización de Puntuación
Continuous Visual Autoregressive Generation via Score Maximization
May 12, 2025
Autores: Chenze Shao, Fandong Meng, Jie Zhou
cs.AI
Resumen
La sabiduría convencional sugiere que los modelos autorregresivos se utilizan para procesar datos discretos. Cuando se aplican a modalidades continuas, como los datos visuales, el modelado visual autorregresivo (VAR, por sus siglas en inglés) suele recurrir a enfoques basados en cuantización para transformar los datos en un espacio discreto, lo que puede introducir una pérdida significativa de información. Para abordar este problema, presentamos un marco de VAR continuo que permite la generación visual autorregresiva directa sin cuantización vectorial. El fundamento teórico subyacente son las reglas de puntuación estrictamente propias, que proporcionan herramientas estadísticas potentes capaces de evaluar qué tan bien un modelo generativo aproxima la distribución verdadera. Dentro de este marco, todo lo que necesitamos es seleccionar una puntuación estrictamente propia y establecerla como el objetivo de entrenamiento a optimizar. Principalmente exploramos una clase de objetivos de entrenamiento basados en la puntuación de energía, que no depende de la verosimilitud y, por lo tanto, supera la dificultad de hacer predicciones probabilísticas en el espacio continuo. Esfuerzos anteriores sobre generación autorregresiva continua, como GIVT y la pérdida de difusión, también pueden derivarse de nuestro marco utilizando otras puntuaciones estrictamente propias. Código fuente: https://github.com/shaochenze/EAR.
English
Conventional wisdom suggests that autoregressive models are used to process
discrete data. When applied to continuous modalities such as visual data,
Visual AutoRegressive modeling (VAR) typically resorts to quantization-based
approaches to cast the data into a discrete space, which can introduce
significant information loss. To tackle this issue, we introduce a Continuous
VAR framework that enables direct visual autoregressive generation without
vector quantization. The underlying theoretical foundation is strictly proper
scoring rules, which provide powerful statistical tools capable of evaluating
how well a generative model approximates the true distribution. Within this
framework, all we need is to select a strictly proper score and set it as the
training objective to optimize. We primarily explore a class of training
objectives based on the energy score, which is likelihood-free and thus
overcomes the difficulty of making probabilistic predictions in the continuous
space. Previous efforts on continuous autoregressive generation, such as GIVT
and diffusion loss, can also be derived from our framework using other strictly
proper scores. Source code: https://github.com/shaochenze/EAR.Summary
AI-Generated Summary