Génération visuelle autorégressive continue par maximisation de score
Continuous Visual Autoregressive Generation via Score Maximization
May 12, 2025
Auteurs: Chenze Shao, Fandong Meng, Jie Zhou
cs.AI
Résumé
La sagesse conventionnelle suggère que les modèles autorégressifs sont utilisés pour traiter des données discrètes. Lorsqu'ils sont appliqués à des modalités continues telles que les données visuelles, la modélisation visuelle autorégressive (VAR) recourt généralement à des approches basées sur la quantification pour transformer les données en un espace discret, ce qui peut entraîner une perte significative d'information. Pour résoudre ce problème, nous introduisons un cadre de VAR continue qui permet une génération visuelle autorégressive directe sans quantification vectorielle. Le fondement théorique sous-jacent repose sur les règles de score strictement propres, qui fournissent des outils statistiques puissants capables d'évaluer dans quelle mesure un modèle génératif approxime la distribution réelle. Dans ce cadre, tout ce dont nous avons besoin est de sélectionner un score strictement propre et de le définir comme objectif d'entraînement à optimiser. Nous explorons principalement une classe d'objectifs d'entraînement basés sur le score énergétique, qui est exempt de vraisemblance et surmonte ainsi la difficulté de faire des prédictions probabilistes dans l'espace continu. Les efforts précédents sur la génération autorégressive continue, tels que GIVT et la perte de diffusion, peuvent également être dérivés de notre cadre en utilisant d'autres scores strictement propres. Code source : https://github.com/shaochenze/EAR.
English
Conventional wisdom suggests that autoregressive models are used to process
discrete data. When applied to continuous modalities such as visual data,
Visual AutoRegressive modeling (VAR) typically resorts to quantization-based
approaches to cast the data into a discrete space, which can introduce
significant information loss. To tackle this issue, we introduce a Continuous
VAR framework that enables direct visual autoregressive generation without
vector quantization. The underlying theoretical foundation is strictly proper
scoring rules, which provide powerful statistical tools capable of evaluating
how well a generative model approximates the true distribution. Within this
framework, all we need is to select a strictly proper score and set it as the
training objective to optimize. We primarily explore a class of training
objectives based on the energy score, which is likelihood-free and thus
overcomes the difficulty of making probabilistic predictions in the continuous
space. Previous efforts on continuous autoregressive generation, such as GIVT
and diffusion loss, can also be derived from our framework using other strictly
proper scores. Source code: https://github.com/shaochenze/EAR.Summary
AI-Generated Summary