ChatPaper.aiChatPaper

VA-π: Alineación de Políticas Variacional para Generación Autoregresiva Consciente de Píxeles

VA-π: Variational Policy Alignment for Pixel-Aware Autoregressive Generation

December 22, 2025
Autores: Xinyao Liao, Qiyuan He, Kai Xu, Xiaoye Qu, Yicong Li, Wei Wei, Angela Yao
cs.AI

Resumen

La generación visual autorregresiva (AR) se basa en tokenizadores para mapear imágenes hacia y desde secuencias discretas. Sin embargo, los tokenizadores se entrenan para reconstruir imágenes limpias a partir de tokens de referencia, mientras que los generadores AR se optimizan únicamente para la verosimilitud de tokens. Esta desalineación genera secuencias de tokens que pueden decodificarse en imágenes de baja calidad, sin supervisión directa desde el espacio de píxeles. Proponemos VA-π, un marco liviano de posentrenamiento que optimiza directamente los modelos AR con un objetivo fundamentado en el espacio de píxeles. VA-π formula la alineación generador-tokenizador como una optimización variacional, derivando una cota inferior de evidencia (ELBO) que unifica la reconstrucción de píxeles y el modelado autorregresivo. Para optimizar en el espacio discreto de tokens, VA-π introduce una estrategia de alineación basada en refuerzo que trata al generador AR como una política, utilizando la calidad de reconstrucción en el espacio de píxeles como recompensa intrínseca. La recompensa se mide por cuán bien las secuencias de tokens predichas pueden reconstruir la imagen original bajo teacher forcing, proporcionando al modelo una guía directa a nivel de píxel sin costoso muestreo libre. El término de regularización del ELBO actúa como un regularizador natural, manteniendo la consistencia distribucional de los tokens. VA-π permite la adaptación rápida de generadores AR existentes, sin necesidad de reentrenar el tokenizador ni utilizar modelos externos de recompensa. Con solo el 1% de los datos de ImageNet-1K y 25 minutos de ajuste, reduce el FID de 14.36 a 7.65 y mejora el IS de 86.55 a 116.70 en LlamaGen-XXL, además de producir ganancias notables en la tarea de texto-a-imagen en GenEval tanto para el modelo de generación visual (LlamaGen: de 0.306 a 0.339) como para el modelo multimodal unificado (Janus-Pro: de 0.725 a 0.744). El código está disponible en https://github.com/Lil-Shake/VA-Pi.
English
Autoregressive (AR) visual generation relies on tokenizers to map images to and from discrete sequences. However, tokenizers are trained to reconstruct clean images from ground-truth tokens, while AR generators are optimized only for token likelihood. This misalignment leads to generated token sequences that may decode into low-quality images, without direct supervision from the pixel space. We propose VA-π, a lightweight post-training framework that directly optimizes AR models with a principled pixel-space objective. VA-π formulates the generator-tokenizer alignment as a variational optimization, deriving an evidence lower bound (ELBO) that unifies pixel reconstruction and autoregressive modeling. To optimize under the discrete token space, VA-π introduces a reinforcement-based alignment strategy that treats the AR generator as a policy, uses pixel-space reconstruction quality as its intrinsic reward. The reward is measured by how well the predicted token sequences can reconstruct the original image under teacher forcing, giving the model direct pixel-level guidance without expensive free-running sampling. The regularization term of the ELBO serves as a natural regularizer, maintaining distributional consistency of tokens. VA-π enables rapid adaptation of existing AR generators, without neither tokenizer retraining nor external reward models. With only 1% ImageNet-1K data and 25 minutes of tuning, it reduces FID from 14.36 to 7.65 and improves IS from 86.55 to 116.70 on LlamaGen-XXL, while also yielding notable gains in the text-to-image task on GenEval for both visual generation model (LlamaGen: from 0.306 to 0.339) and unified multi-modal model (Janus-Pro: from 0.725 to 0.744). Code is available at https://github.com/Lil-Shake/VA-Pi.
PDF32December 27, 2025