ChatPaper.aiChatPaper

VA-π: ピクセルを考慮した自己回帰生成のための変分政策アライメント

VA-π: Variational Policy Alignment for Pixel-Aware Autoregressive Generation

December 22, 2025
著者: Xinyao Liao, Qiyuan He, Kai Xu, Xiaoye Qu, Yicong Li, Wei Wei, Angela Yao
cs.AI

要旨

自己回帰(AR)型視覚生成は、画像を離散シーケンスに変換するトークナイザに依存しています。しかし、トークナイザは正解トークンからクリーンな画像を再構成するように訓練される一方、AR生成器はトークンの尤度のみを最適化します。この不整合により、生成されたトークンシーケンスはピクセル空間からの直接的な監督なしに低品質な画像にデコードされる可能性があります。我々はVA-πを提案します。これは原理に基づいたピクセル空間目的関数でARモデルを直接最適化する軽量な学習後フレームワークです。VA-πは生成器とトークナイザの整合性を変分最適化問題として定式化し、ピクセル再構成と自己回帰モデリングを統合する証拠下限(ELBO)を導出します。離散トークン空間での最適化のために、VA-πは強化学習に基づく整合化戦略を導入し、AR生成器を方策として扱い、ピクセル空間の再構成品質を内在的報酬として利用します。この報酬は、教師強制条件下で予測されたトークンシーケンスが元の画像をどれだけ正確に再構成できるかで測定され、高価な自由実行サンプリングなしにモデルに直接ピクセルレベルの指導を提供します。ELBOの正則化項は自然な正則化器として機能し、トークンの分布的整合性を維持します。VA-πは既存のAR生成器の迅速な適応を可能にし、トークナイザの再学習や外部報酬モデルを必要としません。ImageNet-1Kデータのわずか1%と25分のチューニングで、LlamaGen-XXLにおいてFIDを14.36から7.65に改善し、ISを86.55から116.70に向上させます。また、GenEvalのテキストから画像へのタスクにおいても、視覚生成モデル(LlamaGen: 0.306から0.339へ)と統一マルチモーダルモデル(Janus-Pro: 0.725から0.744へ)の両方で顕著な向上をもたらします。コードはhttps://github.com/Lil-Shake/VA-Piで公開されています。
English
Autoregressive (AR) visual generation relies on tokenizers to map images to and from discrete sequences. However, tokenizers are trained to reconstruct clean images from ground-truth tokens, while AR generators are optimized only for token likelihood. This misalignment leads to generated token sequences that may decode into low-quality images, without direct supervision from the pixel space. We propose VA-π, a lightweight post-training framework that directly optimizes AR models with a principled pixel-space objective. VA-π formulates the generator-tokenizer alignment as a variational optimization, deriving an evidence lower bound (ELBO) that unifies pixel reconstruction and autoregressive modeling. To optimize under the discrete token space, VA-π introduces a reinforcement-based alignment strategy that treats the AR generator as a policy, uses pixel-space reconstruction quality as its intrinsic reward. The reward is measured by how well the predicted token sequences can reconstruct the original image under teacher forcing, giving the model direct pixel-level guidance without expensive free-running sampling. The regularization term of the ELBO serves as a natural regularizer, maintaining distributional consistency of tokens. VA-π enables rapid adaptation of existing AR generators, without neither tokenizer retraining nor external reward models. With only 1% ImageNet-1K data and 25 minutes of tuning, it reduces FID from 14.36 to 7.65 and improves IS from 86.55 to 116.70 on LlamaGen-XXL, while also yielding notable gains in the text-to-image task on GenEval for both visual generation model (LlamaGen: from 0.306 to 0.339) and unified multi-modal model (Janus-Pro: from 0.725 to 0.744). Code is available at https://github.com/Lil-Shake/VA-Pi.
PDF32December 27, 2025