VA-π: Alinhamento de Políticas Variacional para Geração Autorregressiva Consciente de Pixels

Resumo

A geração visual autorregressiva (AR) depende de tokenizers para mapear imagens de e para sequências discretas. No entanto, os tokenizers são treinados para reconstruir imagens limpas a partir de tokens de referência, enquanto os geradores AR são otimizados apenas para a verossimilhança dos tokens. Este desalinhamento leva a sequências de tokens geradas que podem decodificar em imagens de baixa qualidade, sem supervisão direta do espaço de pixels. Propomos o VA-π, uma estrutura leve de pós-treinamento que otimiza diretamente os modelos AR com um objetivo fundamentado no espaço de pixels. O VA-π formula o alinhamento gerador-tokenizer como uma otimização variacional, derivando um limite inferior da evidência (ELBO) que unifica a reconstrução de pixels e a modelagem autorregressiva. Para otimizar sob o espaço discreto de tokens, o VA-π introduz uma estratégia de alinhamento baseada em reforço que trata o gerador AR como uma política, usando a qualidade de reconstrução no espaço de pixels como sua recompensa intrínseca. A recompensa é medida pela capacidade das sequências de tokens previstas reconstruírem a imagem original sob "teacher forcing", fornecendo ao modelo orientação direta a nível de pixel sem a necessidade de amostragem por "free-running" dispendiosa. O termo de regularização do ELBO atua como um regularizador natural, mantendo a consistência distributiva dos tokens. O VA-π permite a rápida adaptação de geradores AR existentes, sem necessidade de retreino do tokenizer ou de modelos externos de recompensa. Com apenas 1% dos dados do ImageNet-1K e 25 minutos de ajuste, ele reduz o FID de 14,36 para 7,65 e melhora o IS de 86,55 para 116,70 no LlamaGen-XXL, além de produzir ganhos notáveis na tarefa de texto-para-imagem no GenEval tanto para o modelo de geração visual (LlamaGen: de 0,306 para 0,339) quanto para o modelo multimodal unificado (Janus-Pro: de 0,725 para 0,744). O código está disponível em https://github.com/Lil-Shake/VA-Pi.

English

Autoregressive (AR) visual generation relies on tokenizers to map images to and from discrete sequences. However, tokenizers are trained to reconstruct clean images from ground-truth tokens, while AR generators are optimized only for token likelihood. This misalignment leads to generated token sequences that may decode into low-quality images, without direct supervision from the pixel space. We propose VA-π, a lightweight post-training framework that directly optimizes AR models with a principled pixel-space objective. VA-π formulates the generator-tokenizer alignment as a variational optimization, deriving an evidence lower bound (ELBO) that unifies pixel reconstruction and autoregressive modeling. To optimize under the discrete token space, VA-π introduces a reinforcement-based alignment strategy that treats the AR generator as a policy, uses pixel-space reconstruction quality as its intrinsic reward. The reward is measured by how well the predicted token sequences can reconstruct the original image under teacher forcing, giving the model direct pixel-level guidance without expensive free-running sampling. The regularization term of the ELBO serves as a natural regularizer, maintaining distributional consistency of tokens. VA-π enables rapid adaptation of existing AR generators, without neither tokenizer retraining nor external reward models. With only 1% ImageNet-1K data and 25 minutes of tuning, it reduces FID from 14.36 to 7.65 and improves IS from 86.55 to 116.70 on LlamaGen-XXL, while also yielding notable gains in the text-to-image task on GenEval for both visual generation model (LlamaGen: from 0.306 to 0.339) and unified multi-modal model (Janus-Pro: from 0.725 to 0.744). Code is available at https://github.com/Lil-Shake/VA-Pi.

VA-π: Alinhamento de Políticas Variacional para Geração Autorregressiva Consciente de Pixels

VA-π: Variational Policy Alignment for Pixel-Aware Autoregressive Generation

Resumo

Support