Geração Visual Autorregressiva Contínua via Maximização de Pontuação
Continuous Visual Autoregressive Generation via Score Maximization
May 12, 2025
Autores: Chenze Shao, Fandong Meng, Jie Zhou
cs.AI
Resumo
A sabedoria convencional sugere que modelos autoregressivos são usados para processar dados discretos. Quando aplicados a modalidades contínuas, como dados visuais, a modelagem Visual AutoRegressiva (VAR) normalmente recorre a abordagens baseadas em quantização para converter os dados em um espaço discreto, o que pode introduzir uma perda significativa de informação. Para abordar esse problema, introduzimos um framework de VAR Contínua que permite a geração visual autoregressiva direta sem quantização vetorial. A base teórica subjacente são as regras de pontuação estritamente próprias, que fornecem ferramentas estatísticas poderosas capazes de avaliar quão bem um modelo generativo aproxima a distribuição verdadeira. Dentro desse framework, tudo o que precisamos é selecionar uma pontuação estritamente própria e defini-la como o objetivo de treinamento a ser otimizado. Exploramos principalmente uma classe de objetivos de treinamento baseados na pontuação de energia, que é livre de verossimilhança e, portanto, supera a dificuldade de fazer previsões probabilísticas no espaço contínuo. Esforços anteriores em geração autoregressiva contínua, como GIVT e perda de difusão, também podem ser derivados de nosso framework usando outras pontuações estritamente próprias. Código-fonte: https://github.com/shaochenze/EAR.
English
Conventional wisdom suggests that autoregressive models are used to process
discrete data. When applied to continuous modalities such as visual data,
Visual AutoRegressive modeling (VAR) typically resorts to quantization-based
approaches to cast the data into a discrete space, which can introduce
significant information loss. To tackle this issue, we introduce a Continuous
VAR framework that enables direct visual autoregressive generation without
vector quantization. The underlying theoretical foundation is strictly proper
scoring rules, which provide powerful statistical tools capable of evaluating
how well a generative model approximates the true distribution. Within this
framework, all we need is to select a strictly proper score and set it as the
training objective to optimize. We primarily explore a class of training
objectives based on the energy score, which is likelihood-free and thus
overcomes the difficulty of making probabilistic predictions in the continuous
space. Previous efforts on continuous autoregressive generation, such as GIVT
and diffusion loss, can also be derived from our framework using other strictly
proper scores. Source code: https://github.com/shaochenze/EAR.