Generazione Autoregressiva Visiva Continua tramite Massimizzazione del Punteggio

Abstract

La saggezza convenzionale suggerisce che i modelli autoregressivi siano utilizzati per elaborare dati discreti. Quando applicati a modalità continue come i dati visivi, il Visual AutoRegressive modeling (VAR) ricorre tipicamente ad approcci basati sulla quantizzazione per trasformare i dati in uno spazio discreto, il che può introdurre una significativa perdita di informazioni. Per affrontare questo problema, introduciamo un framework Continuous VAR che consente la generazione autoregressiva visiva diretta senza quantizzazione vettoriale. Il fondamento teorico sottostante è costituito dalle regole di punteggio strettamente proprie, che forniscono potenti strumenti statistici in grado di valutare quanto bene un modello generativo approssimi la distribuzione reale. All'interno di questo framework, tutto ciò di cui abbiamo bisogno è selezionare uno score strettamente proprio e impostarlo come obiettivo di addestramento da ottimizzare. Esploriamo principalmente una classe di obiettivi di addestramento basati sull'energy score, che è privo di verosimiglianza e quindi supera la difficoltà di fare previsioni probabilistiche nello spazio continuo. Precedenti sforzi sulla generazione autoregressiva continua, come GIVT e la perdita di diffusione, possono anche essere derivati dal nostro framework utilizzando altri score strettamente propri. Codice sorgente: https://github.com/shaochenze/EAR.

English

Conventional wisdom suggests that autoregressive models are used to process discrete data. When applied to continuous modalities such as visual data, Visual AutoRegressive modeling (VAR) typically resorts to quantization-based approaches to cast the data into a discrete space, which can introduce significant information loss. To tackle this issue, we introduce a Continuous VAR framework that enables direct visual autoregressive generation without vector quantization. The underlying theoretical foundation is strictly proper scoring rules, which provide powerful statistical tools capable of evaluating how well a generative model approximates the true distribution. Within this framework, all we need is to select a strictly proper score and set it as the training objective to optimize. We primarily explore a class of training objectives based on the energy score, which is likelihood-free and thus overcomes the difficulty of making probabilistic predictions in the continuous space. Previous efforts on continuous autoregressive generation, such as GIVT and diffusion loss, can also be derived from our framework using other strictly proper scores. Source code: https://github.com/shaochenze/EAR.

Generazione Autoregressiva Visiva Continua tramite Massimizzazione del Punteggio

Continuous Visual Autoregressive Generation via Score Maximization

Abstract

Support