VA-π: Variational Policy Alignment voor Pixel-Aware Autoregressieve Generatie
VA-π: Variational Policy Alignment for Pixel-Aware Autoregressive Generation
December 22, 2025
Auteurs: Xinyao Liao, Qiyuan He, Kai Xu, Xiaoye Qu, Yicong Li, Wei Wei, Angela Yao
cs.AI
Samenvatting
Autoregressieve (AR) visuele generatie is afhankelijk van tokenizers om afbeeldingen naar en van discrete reeksen af te beelden. Tokenizers worden echter getraind om schone afbeeldingen te reconstrueren vanuit grond-waarheid tokens, terwijl AR-generatoren alleen worden geoptimaliseerd voor token-waarschijnlijkheid. Deze misalignering leidt tot gegenereerde tokenreeksen die kunnen decoderen naar afbeeldingen van lage kwaliteit, zonder direct toezicht vanuit de pixelruimte. Wij stellen VA-π voor, een lichtgewicht raamwerk voor post-training dat AR-modellen direct optimaliseert met een principieel pixelruimte-doel. VA-π formuleert de generator-tokenizer alignering als een variational optimalisatie, waarbij een evidence lower bound (ELBO) wordt afgeleid die pixelreconstructie en autoregressieve modellering verenigt. Om te optimaliseren onder de discrete tokenruimte, introduceert VA-π een op versterkend leren gebaseerde aligneringsstrategie die de AR-generator behandelt als een policy en de reconstructiekwaliteit in de pixelruimte gebruikt als zijn intrinsieke beloning. De beloning wordt gemeten aan de hand van hoe goed de voorspelde tokenreeksen de originele afbeelding kunnen reconstrueren onder teacher forcing, wat het model directe pixel-level begeleiding geeft zonder dure free-running sampling. De regularisatieterm van de ELBO dient als een natuurlijke regularisator, die de distributionele consistentie van tokens behoudt. VA-π maakt snelle aanpassing van bestaande AR-generatoren mogelijk, zonder tokenizer-hertraining of externe beloningsmodellen. Met slechts 1% ImageNet-1K data en 25 minuten afstemming, verlaagt het de FID van 14.36 naar 7.65 en verbetert het de IS van 86.55 naar 116.70 op LlamaGen-XXL, terwijl het ook opmerkelijke winsten oplevert in de tekst-naar-afbeelding taak op GenEval voor zowel het visuele generatiemodel (LlamaGen: van 0.306 naar 0.339) als het verenigde multimodale model (Janus-Pro: van 0.725 naar 0.744). Code is beschikbaar op https://github.com/Lil-Shake/VA-Pi.
English
Autoregressive (AR) visual generation relies on tokenizers to map images to and from discrete sequences. However, tokenizers are trained to reconstruct clean images from ground-truth tokens, while AR generators are optimized only for token likelihood. This misalignment leads to generated token sequences that may decode into low-quality images, without direct supervision from the pixel space. We propose VA-π, a lightweight post-training framework that directly optimizes AR models with a principled pixel-space objective. VA-π formulates the generator-tokenizer alignment as a variational optimization, deriving an evidence lower bound (ELBO) that unifies pixel reconstruction and autoregressive modeling. To optimize under the discrete token space, VA-π introduces a reinforcement-based alignment strategy that treats the AR generator as a policy, uses pixel-space reconstruction quality as its intrinsic reward. The reward is measured by how well the predicted token sequences can reconstruct the original image under teacher forcing, giving the model direct pixel-level guidance without expensive free-running sampling. The regularization term of the ELBO serves as a natural regularizer, maintaining distributional consistency of tokens. VA-π enables rapid adaptation of existing AR generators, without neither tokenizer retraining nor external reward models. With only 1% ImageNet-1K data and 25 minutes of tuning, it reduces FID from 14.36 to 7.65 and improves IS from 86.55 to 116.70 on LlamaGen-XXL, while also yielding notable gains in the text-to-image task on GenEval for both visual generation model (LlamaGen: from 0.306 to 0.339) and unified multi-modal model (Janus-Pro: from 0.725 to 0.744). Code is available at https://github.com/Lil-Shake/VA-Pi.