VA-π : Alignement Variationnel des Politiques pour une Génération Autorégressive Sensible aux Pixels

papers.abstract

La génération visuelle autorégressive (AR) repose sur des tokeniseurs pour mapper les images vers et depuis des séquences discrètes. Cependant, les tokeniseurs sont entraînés à reconstruire des images propres à partir de tokens de vérité terrain, tandis que les générateurs AR sont optimisés uniquement pour la vraisemblance des tokens. Ce désalignement conduit à des séquences de tokens générées qui peuvent se décoder en images de faible qualité, sans supervision directe depuis l'espace pixel. Nous proposons VA-π, un cadre léger d'optimisation post-entraînement qui optimise directement les modèles AR avec un objectif fondé dans l'espace pixel. VA-π formule l'alignement générateur-tokeniseur comme une optimisation variationnelle, dérivant une borne inférieure de l'évidence (ELBO) qui unifie la reconstruction pixel et la modélisation autorégressive. Pour optimiser dans l'espace discret des tokens, VA-π introduit une stratégie d'alignement par renforcement qui traite le générateur AR comme une politique, utilisant la qualité de reconstruction dans l'espace pixel comme récompense intrinsèque. La récompense est mesurée par la capacité des séquences de tokens prédites à reconstruire l'image originale sous forçage de l'enseignant, fournissant au modèle un guidage direct au niveau pixel sans recours à un échantillonnage libre coûteux. Le terme de régularisation de l'ELBO sert de régularisateur naturel, maintenant la cohérence distributionnelle des tokens. VA-π permet l'adaptation rapide de générateurs AR existants, sans nécessiter ni le réentraînement du tokeniseur ni des modèles de récompense externes. Avec seulement 1% des données d'ImageNet-1K et 25 minutes de réglage, il réduit le FID de 14,36 à 7,65 et améliore l'IS de 86,55 à 116,70 sur LlamaGen-XXL, tout en produisant des gains notables dans la tâche texte-image sur GenEval, à la fois pour le modèle de génération visuelle (LlamaGen : de 0,306 à 0,339) et pour le modèle multimodal unifié (Janus-Pro : de 0,725 à 0,744). Le code est disponible à l'adresse https://github.com/Lil-Shake/VA-Pi.

English

Autoregressive (AR) visual generation relies on tokenizers to map images to and from discrete sequences. However, tokenizers are trained to reconstruct clean images from ground-truth tokens, while AR generators are optimized only for token likelihood. This misalignment leads to generated token sequences that may decode into low-quality images, without direct supervision from the pixel space. We propose VA-π, a lightweight post-training framework that directly optimizes AR models with a principled pixel-space objective. VA-π formulates the generator-tokenizer alignment as a variational optimization, deriving an evidence lower bound (ELBO) that unifies pixel reconstruction and autoregressive modeling. To optimize under the discrete token space, VA-π introduces a reinforcement-based alignment strategy that treats the AR generator as a policy, uses pixel-space reconstruction quality as its intrinsic reward. The reward is measured by how well the predicted token sequences can reconstruct the original image under teacher forcing, giving the model direct pixel-level guidance without expensive free-running sampling. The regularization term of the ELBO serves as a natural regularizer, maintaining distributional consistency of tokens. VA-π enables rapid adaptation of existing AR generators, without neither tokenizer retraining nor external reward models. With only 1% ImageNet-1K data and 25 minutes of tuning, it reduces FID from 14.36 to 7.65 and improves IS from 86.55 to 116.70 on LlamaGen-XXL, while also yielding notable gains in the text-to-image task on GenEval for both visual generation model (LlamaGen: from 0.306 to 0.339) and unified multi-modal model (Janus-Pro: from 0.725 to 0.744). Code is available at https://github.com/Lil-Shake/VA-Pi.

VA-π : Alignement Variationnel des Politiques pour une Génération Autorégressive Sensible aux Pixels

VA-π: Variational Policy Alignment for Pixel-Aware Autoregressive Generation

papers.abstract

Support