VA-π: Variational Policy Alignment for pixelbewusste autoregressive Generierung
VA-π: Variational Policy Alignment for Pixel-Aware Autoregressive Generation
December 22, 2025
papers.authors: Xinyao Liao, Qiyuan He, Kai Xu, Xiaoye Qu, Yicong Li, Wei Wei, Angela Yao
cs.AI
papers.abstract
Autoregressive (AR) visuelle Generierung nutzt Tokenizer, um Bilder auf diskrete Sequenzen abzubilden und umgekehrt. Tokenizer werden jedoch darauf trainiert, saubere Bilder aus Ground-Truth-Tokens zu rekonstruieren, während AR-Generatoren nur auf Token-Wahrscheinlichkeit optimiert werden. Diese Fehlanpassung führt dazu, dass generierte Token-Sequenzen in qualitativ minderwertige Bilder decodiert werden können, da keine direkte Überwachung aus dem Pixelraum erfolgt. Wir schlagen VA-π vor, ein leichtgewichtiges Post-Training-Framework, das AR-Modelle direkt mit einem fundierten Pixelraum-Ziel optimiert. VA-π formuliert die Generator-Tokenizer-Abgleichung als variationsbasiertes Optimierungsproblem und leitet eine Evidenzuntergrenze (ELBO) ab, die Pixelrekonstruktion und autoregressive Modellierung vereint. Um die Optimierung im diskreten Token-Raum zu ermöglichen, führt VA-π eine verstärkungsbasierte Abgleichsstrategie ein, die den AR-Generator als Policy behandelt und die Rekonstruktionsqualität im Pixelraum als intrinsische Belohnung nutzt. Die Belohnung wird daran gemessen, wie gut die vorhergesagten Token-Sequenzen das Originalbild unter Teacher Forcing rekonstruieren können, wodurch das Modell direkte Pixel-Level-Anleitung erhält, ohne aufwendiges Free-Running-Sampling. Der Regularisierungsterm der ELBO dient als natürlicher Regularisierer, der die Verteilungskonsistenz der Tokens aufrechterhält. VA-π ermöglicht die schnelle Anpassung bestehender AR-Generatoren, ohne dass Tokenizer neu trainiert oder externe Belohnungsmodelle benötigt werden. Mit nur 1 % der ImageNet-1K-Daten und 25 Minuten Feintuning reduziert es den FID von 14,36 auf 7,65 und verbessert den IS von 86,55 auf 116,70 bei LlamaGen-XXL, während es auch bei der Text-zu-Bild-Aufgabe auf GenEval sowohl für das visuelle Generierungsmodell (LlamaGen: von 0,306 auf 0,339) als auch für das vereinheitlichte multimodale Modell (Janus-Pro: von 0,725 auf 0,744) bemerkenswerte Steigerungen erzielt. Der Code ist verfügbar unter https://github.com/Lil-Shake/VA-Pi.
English
Autoregressive (AR) visual generation relies on tokenizers to map images to and from discrete sequences. However, tokenizers are trained to reconstruct clean images from ground-truth tokens, while AR generators are optimized only for token likelihood. This misalignment leads to generated token sequences that may decode into low-quality images, without direct supervision from the pixel space. We propose VA-π, a lightweight post-training framework that directly optimizes AR models with a principled pixel-space objective. VA-π formulates the generator-tokenizer alignment as a variational optimization, deriving an evidence lower bound (ELBO) that unifies pixel reconstruction and autoregressive modeling. To optimize under the discrete token space, VA-π introduces a reinforcement-based alignment strategy that treats the AR generator as a policy, uses pixel-space reconstruction quality as its intrinsic reward. The reward is measured by how well the predicted token sequences can reconstruct the original image under teacher forcing, giving the model direct pixel-level guidance without expensive free-running sampling. The regularization term of the ELBO serves as a natural regularizer, maintaining distributional consistency of tokens. VA-π enables rapid adaptation of existing AR generators, without neither tokenizer retraining nor external reward models. With only 1% ImageNet-1K data and 25 minutes of tuning, it reduces FID from 14.36 to 7.65 and improves IS from 86.55 to 116.70 on LlamaGen-XXL, while also yielding notable gains in the text-to-image task on GenEval for both visual generation model (LlamaGen: from 0.306 to 0.339) and unified multi-modal model (Janus-Pro: from 0.725 to 0.744). Code is available at https://github.com/Lil-Shake/VA-Pi.