Geração Visual Autorregressiva Contínua via Maximização de Pontuação

Resumo

A sabedoria convencional sugere que modelos autoregressivos são usados para processar dados discretos. Quando aplicados a modalidades contínuas, como dados visuais, a modelagem Visual AutoRegressiva (VAR) normalmente recorre a abordagens baseadas em quantização para converter os dados em um espaço discreto, o que pode introduzir uma perda significativa de informação. Para abordar esse problema, introduzimos um framework de VAR Contínua que permite a geração visual autoregressiva direta sem quantização vetorial. A base teórica subjacente são as regras de pontuação estritamente próprias, que fornecem ferramentas estatísticas poderosas capazes de avaliar quão bem um modelo generativo aproxima a distribuição verdadeira. Dentro desse framework, tudo o que precisamos é selecionar uma pontuação estritamente própria e defini-la como o objetivo de treinamento a ser otimizado. Exploramos principalmente uma classe de objetivos de treinamento baseados na pontuação de energia, que é livre de verossimilhança e, portanto, supera a dificuldade de fazer previsões probabilísticas no espaço contínuo. Esforços anteriores em geração autoregressiva contínua, como GIVT e perda de difusão, também podem ser derivados de nosso framework usando outras pontuações estritamente próprias. Código-fonte: https://github.com/shaochenze/EAR.

English

Conventional wisdom suggests that autoregressive models are used to process discrete data. When applied to continuous modalities such as visual data, Visual AutoRegressive modeling (VAR) typically resorts to quantization-based approaches to cast the data into a discrete space, which can introduce significant information loss. To tackle this issue, we introduce a Continuous VAR framework that enables direct visual autoregressive generation without vector quantization. The underlying theoretical foundation is strictly proper scoring rules, which provide powerful statistical tools capable of evaluating how well a generative model approximates the true distribution. Within this framework, all we need is to select a strictly proper score and set it as the training objective to optimize. We primarily explore a class of training objectives based on the energy score, which is likelihood-free and thus overcomes the difficulty of making probabilistic predictions in the continuous space. Previous efforts on continuous autoregressive generation, such as GIVT and diffusion loss, can also be derived from our framework using other strictly proper scores. Source code: https://github.com/shaochenze/EAR.

Geração Visual Autorregressiva Contínua via Maximização de Pontuação

Continuous Visual Autoregressive Generation via Score Maximization

Resumo

Support