ChatPaper.aiChatPaper

Génération visuelle autorégressive continue par maximisation de score

Continuous Visual Autoregressive Generation via Score Maximization

May 12, 2025
Auteurs: Chenze Shao, Fandong Meng, Jie Zhou
cs.AI

Résumé

La sagesse conventionnelle suggère que les modèles autorégressifs sont utilisés pour traiter des données discrètes. Lorsqu'ils sont appliqués à des modalités continues telles que les données visuelles, la modélisation visuelle autorégressive (VAR) recourt généralement à des approches basées sur la quantification pour transformer les données en un espace discret, ce qui peut entraîner une perte significative d'information. Pour résoudre ce problème, nous introduisons un cadre de VAR continue qui permet une génération visuelle autorégressive directe sans quantification vectorielle. Le fondement théorique sous-jacent repose sur les règles de score strictement propres, qui fournissent des outils statistiques puissants capables d'évaluer dans quelle mesure un modèle génératif approxime la distribution réelle. Dans ce cadre, tout ce dont nous avons besoin est de sélectionner un score strictement propre et de le définir comme objectif d'entraînement à optimiser. Nous explorons principalement une classe d'objectifs d'entraînement basés sur le score énergétique, qui est exempt de vraisemblance et surmonte ainsi la difficulté de faire des prédictions probabilistes dans l'espace continu. Les efforts précédents sur la génération autorégressive continue, tels que GIVT et la perte de diffusion, peuvent également être dérivés de notre cadre en utilisant d'autres scores strictement propres. Code source : https://github.com/shaochenze/EAR.
English
Conventional wisdom suggests that autoregressive models are used to process discrete data. When applied to continuous modalities such as visual data, Visual AutoRegressive modeling (VAR) typically resorts to quantization-based approaches to cast the data into a discrete space, which can introduce significant information loss. To tackle this issue, we introduce a Continuous VAR framework that enables direct visual autoregressive generation without vector quantization. The underlying theoretical foundation is strictly proper scoring rules, which provide powerful statistical tools capable of evaluating how well a generative model approximates the true distribution. Within this framework, all we need is to select a strictly proper score and set it as the training objective to optimize. We primarily explore a class of training objectives based on the energy score, which is likelihood-free and thus overcomes the difficulty of making probabilistic predictions in the continuous space. Previous efforts on continuous autoregressive generation, such as GIVT and diffusion loss, can also be derived from our framework using other strictly proper scores. Source code: https://github.com/shaochenze/EAR.

Summary

AI-Generated Summary

PDF31May 13, 2025