Generazione Autoregressiva Visiva Continua tramite Massimizzazione del Punteggio
Continuous Visual Autoregressive Generation via Score Maximization
May 12, 2025
Autori: Chenze Shao, Fandong Meng, Jie Zhou
cs.AI
Abstract
La saggezza convenzionale suggerisce che i modelli autoregressivi siano utilizzati per elaborare dati discreti. Quando applicati a modalità continue come i dati visivi, il Visual AutoRegressive modeling (VAR) ricorre tipicamente ad approcci basati sulla quantizzazione per trasformare i dati in uno spazio discreto, il che può introdurre una significativa perdita di informazioni. Per affrontare questo problema, introduciamo un framework Continuous VAR che consente la generazione autoregressiva visiva diretta senza quantizzazione vettoriale. Il fondamento teorico sottostante è costituito dalle regole di punteggio strettamente proprie, che forniscono potenti strumenti statistici in grado di valutare quanto bene un modello generativo approssimi la distribuzione reale. All'interno di questo framework, tutto ciò di cui abbiamo bisogno è selezionare uno score strettamente proprio e impostarlo come obiettivo di addestramento da ottimizzare. Esploriamo principalmente una classe di obiettivi di addestramento basati sull'energy score, che è privo di verosimiglianza e quindi supera la difficoltà di fare previsioni probabilistiche nello spazio continuo. Precedenti sforzi sulla generazione autoregressiva continua, come GIVT e la perdita di diffusione, possono anche essere derivati dal nostro framework utilizzando altri score strettamente propri. Codice sorgente: https://github.com/shaochenze/EAR.
English
Conventional wisdom suggests that autoregressive models are used to process
discrete data. When applied to continuous modalities such as visual data,
Visual AutoRegressive modeling (VAR) typically resorts to quantization-based
approaches to cast the data into a discrete space, which can introduce
significant information loss. To tackle this issue, we introduce a Continuous
VAR framework that enables direct visual autoregressive generation without
vector quantization. The underlying theoretical foundation is strictly proper
scoring rules, which provide powerful statistical tools capable of evaluating
how well a generative model approximates the true distribution. Within this
framework, all we need is to select a strictly proper score and set it as the
training objective to optimize. We primarily explore a class of training
objectives based on the energy score, which is likelihood-free and thus
overcomes the difficulty of making probabilistic predictions in the continuous
space. Previous efforts on continuous autoregressive generation, such as GIVT
and diffusion loss, can also be derived from our framework using other strictly
proper scores. Source code: https://github.com/shaochenze/EAR.