スコア最大化による連続的視覚自己回帰生成
Continuous Visual Autoregressive Generation via Score Maximization
May 12, 2025
著者: Chenze Shao, Fandong Meng, Jie Zhou
cs.AI
要旨
従来の知見では、自己回帰モデルは離散データを処理するために使用されると考えられてきました。視覚データのような連続的なモダリティに適用する場合、Visual AutoRegressive modeling (VAR) は通常、データを離散空間に変換するために量子化ベースのアプローチを採用しますが、これにより重大な情報損失が生じる可能性があります。この問題に対処するため、我々はベクトル量子化を必要とせずに直接的な視覚的自己回帰生成を可能にするContinuous VARフレームワークを提案します。その理論的基盤は、厳密に適切なスコアリングルールであり、生成モデルが真の分布をどれだけよく近似しているかを評価するための強力な統計ツールを提供します。このフレームワーク内では、厳密に適切なスコアを選択し、それを最適化するための訓練目標として設定するだけで十分です。我々は主に、エネルギースコアに基づく一連の訓練目標を探求します。これは尤度を必要としないため、連続空間での確率的予測の難しさを克服します。GIVTや拡散損失のような、連続的自己回帰生成に関する以前の取り組みも、他の厳密に適切なスコアを使用して我々のフレームワークから導出することができます。ソースコード: https://github.com/shaochenze/EAR。
English
Conventional wisdom suggests that autoregressive models are used to process
discrete data. When applied to continuous modalities such as visual data,
Visual AutoRegressive modeling (VAR) typically resorts to quantization-based
approaches to cast the data into a discrete space, which can introduce
significant information loss. To tackle this issue, we introduce a Continuous
VAR framework that enables direct visual autoregressive generation without
vector quantization. The underlying theoretical foundation is strictly proper
scoring rules, which provide powerful statistical tools capable of evaluating
how well a generative model approximates the true distribution. Within this
framework, all we need is to select a strictly proper score and set it as the
training objective to optimize. We primarily explore a class of training
objectives based on the energy score, which is likelihood-free and thus
overcomes the difficulty of making probabilistic predictions in the continuous
space. Previous efforts on continuous autoregressive generation, such as GIVT
and diffusion loss, can also be derived from our framework using other strictly
proper scores. Source code: https://github.com/shaochenze/EAR.Summary
AI-Generated Summary