VA-π: Allineamento delle Politiche Variazionali per la Generazione Autoregressiva Consapevole dei Pixel
VA-π: Variational Policy Alignment for Pixel-Aware Autoregressive Generation
December 22, 2025
Autori: Xinyao Liao, Qiyuan He, Kai Xu, Xiaoye Qu, Yicong Li, Wei Wei, Angela Yao
cs.AI
Abstract
La generazione visiva autoregressiva (AR) si basa su tokenizer per mappare le immagini da e verso sequenze discrete. Tuttavia, i tokenizer sono addestrati per ricostruire immagini pulite a partire da token di ground-truth, mentre i generatori AR sono ottimizzati solo per la verosimiglianza dei token. Questo disallineamento porta a sequenze di token generate che possono decodificarsi in immagini di bassa qualità, senza una supervisione diretta dallo spazio dei pixel. Proponiamo VA-π, un framework leggero post-addestramento che ottimizza direttamente i modelli AR con un obiettivo principiato nello spazio dei pixel. VA-π formula l'allineamento generatore-tokenizer come un'ottimizzazione variazionale, derivando un lower bound dell'evidenza (ELBO) che unifica la ricostruzione dei pixel e la modellazione autoregressiva. Per ottimizzare nello spazio discreto dei token, VA-π introduce una strategia di allineamento basata sul reinforcement learning che tratta il generatore AR come una policy e utilizza la qualità della ricostruzione nello spazio dei pixel come ricompensa intrinseca. La ricompensa è misurata da quanto bene le sequenze di token predette possono ricostruire l'immagine originale sotto teacher forcing, fornendo al modello una guida diretta a livello di pixel senza costosi campionamenti free-running. Il termine di regolarizzazione dell'ELBO funge da regolarizzante naturale, mantenendo la consistenza distributiva dei token. VA-π consente una rapida adattazione di generatori AR esistenti, senza necessità di riaddestrare il tokenizer né di modelli di ricompensa esterni. Con solo l'1% dei dati di ImageNet-1K e 25 minuti di tuning, riduce l'FID da 14.36 a 7.65 e migliora l'IS da 86.55 a 116.70 su LlamaGen-XXL, producendo anche guadagni significativi nel task text-to-image su GenEval sia per il modello di generazione visiva (LlamaGen: da 0.306 a 0.339) che per il modello multimodale unificato (Janus-Pro: da 0.725 a 0.744). Il codice è disponibile all'indirizzo https://github.com/Lil-Shake/VA-Pi.
English
Autoregressive (AR) visual generation relies on tokenizers to map images to and from discrete sequences. However, tokenizers are trained to reconstruct clean images from ground-truth tokens, while AR generators are optimized only for token likelihood. This misalignment leads to generated token sequences that may decode into low-quality images, without direct supervision from the pixel space. We propose VA-π, a lightweight post-training framework that directly optimizes AR models with a principled pixel-space objective. VA-π formulates the generator-tokenizer alignment as a variational optimization, deriving an evidence lower bound (ELBO) that unifies pixel reconstruction and autoregressive modeling. To optimize under the discrete token space, VA-π introduces a reinforcement-based alignment strategy that treats the AR generator as a policy, uses pixel-space reconstruction quality as its intrinsic reward. The reward is measured by how well the predicted token sequences can reconstruct the original image under teacher forcing, giving the model direct pixel-level guidance without expensive free-running sampling. The regularization term of the ELBO serves as a natural regularizer, maintaining distributional consistency of tokens. VA-π enables rapid adaptation of existing AR generators, without neither tokenizer retraining nor external reward models. With only 1% ImageNet-1K data and 25 minutes of tuning, it reduces FID from 14.36 to 7.65 and improves IS from 86.55 to 116.70 on LlamaGen-XXL, while also yielding notable gains in the text-to-image task on GenEval for both visual generation model (LlamaGen: from 0.306 to 0.339) and unified multi-modal model (Janus-Pro: from 0.725 to 0.744). Code is available at https://github.com/Lil-Shake/VA-Pi.