ChatPaper.aiChatPaper

VA-π: 픽셀 인식 자기회귀 생성을 위한 변분 정책 정렬

VA-π: Variational Policy Alignment for Pixel-Aware Autoregressive Generation

December 22, 2025
저자: Xinyao Liao, Qiyuan He, Kai Xu, Xiaoye Qu, Yicong Li, Wei Wei, Angela Yao
cs.AI

초록

자기회귀(AR) 시각 생성 모델은 이미지를 이산 시퀀스로 매핑하고 복원하기 위해 토크나이저에 의존합니다. 그러나 토크나이저는 실제 정답 토큰으로부터 깨끗한 이미지를 복원하도록 훈련되는 반면, AR 생성기는 토큰 가능도만을 최적화합니다. 이러한 불일치로 인해 생성된 토큰 시퀀스가 픽셀 공간의 직접적인 감독 없이 저품질 이미지로 디코딩될 수 있습니다. 우리는 AR 모델을 원리 기반의 픽셀 공간 목표 함수로 직접 최적화하는 경량 사후 훈련 프레임워크인 VA-π를 제안합니다. VA-π는 생성기-토크나이저 정렬 문제를 변분 최적화로 공식화하여 픽셀 재구성과 자기회귀 모델링을 통합하는 증거 하한(ELBO)을 유도합니다. 이산 토큰 공간에서 최적화하기 위해 VA-π는 AR 생성기를 정책으로 간주하고, 픽셀 공간 재구성 품질을 내재적 보상으로 사용하는 강화 학습 기반 정렬 전략을 도입합니다. 보상은 교사 강요 하에서 예측된 토큰 시퀀스가 원본 이미지를 얼마나 잘 재구성하는지로 측정되며, 이는 계산량이 많은 자유 추론 샘플링 없이 모델에 직접적인 픽셀 수준 지도를 제공합니다. ELBO의 정규화 항은 토큰의 분포 일관성을 유지하는 자연스러운 정규화자 역할을 합니다. VA-π는 토크나이저 재훈련이나 외부 보상 모델 없이 기존 AR 생성기의 신속한 적응을 가능하게 합니다. ImageNet-1K 데이터의 1%와 25분의 미세 조정만으로 LlamaGen-XXL에서 FID를 14.36에서 7.65로 낮추고 IS를 86.55에서 116.70로 향상시키며, GenEval의 텍스트-이미지 작업에서도 시각 생성 모델(LlamaGen: 0.306에서 0.339로)과 통합 멀티모달 모델(Janus-Pro: 0.725에서 0.744로) 모두에서 뚜렷한 성능 향상을 보여줍니다. 코드는 https://github.com/Lil-Shake/VA-Pi에서 확인할 수 있습니다.
English
Autoregressive (AR) visual generation relies on tokenizers to map images to and from discrete sequences. However, tokenizers are trained to reconstruct clean images from ground-truth tokens, while AR generators are optimized only for token likelihood. This misalignment leads to generated token sequences that may decode into low-quality images, without direct supervision from the pixel space. We propose VA-π, a lightweight post-training framework that directly optimizes AR models with a principled pixel-space objective. VA-π formulates the generator-tokenizer alignment as a variational optimization, deriving an evidence lower bound (ELBO) that unifies pixel reconstruction and autoregressive modeling. To optimize under the discrete token space, VA-π introduces a reinforcement-based alignment strategy that treats the AR generator as a policy, uses pixel-space reconstruction quality as its intrinsic reward. The reward is measured by how well the predicted token sequences can reconstruct the original image under teacher forcing, giving the model direct pixel-level guidance without expensive free-running sampling. The regularization term of the ELBO serves as a natural regularizer, maintaining distributional consistency of tokens. VA-π enables rapid adaptation of existing AR generators, without neither tokenizer retraining nor external reward models. With only 1% ImageNet-1K data and 25 minutes of tuning, it reduces FID from 14.36 to 7.65 and improves IS from 86.55 to 116.70 on LlamaGen-XXL, while also yielding notable gains in the text-to-image task on GenEval for both visual generation model (LlamaGen: from 0.306 to 0.339) and unified multi-modal model (Janus-Pro: from 0.725 to 0.744). Code is available at https://github.com/Lil-Shake/VA-Pi.
PDF32December 27, 2025