RankE: 디코더 공진화를 통한 이산적 텍스트-이미지 생성을 위한 종단 간 사후 훈련
RankE: End-to-End Post-Training for Discrete Text-to-Image Generation with Decoder Co-Evolution
May 20, 2026
저자: Siyong Jian, Siyuan Li, Luyuan Zhang, Zedong Wang, Xin Jin, Ying Li, Cheng Tan, Huan Wang
cs.AI
초록
이산 자기회귀(AR) 텍스트-이미지(T2I) 모델은 VQ 토크나이저와 AR 정책을 결합하며, 현재의 사후 훈련 파이프라인은 VQ 디코더를 고정한 채 정책만 최적화한다. 최근 확산 T2I 연구(REPA-E로 대표됨)는 VAE 자체가 주요 정렬 병목 현상을 유발함을 보였으나, 이산 AR 모델에 대한 유사한 분석은 존재하지 않는다. 본 논문은 정책 전용 최적화가 잠재 공변량 이동(Latent Covariate Shift)을 유발함을 보인다. 즉, 정책이 진화함에 따라 생성된 토큰 분포가 디코더가 훈련된 실제 분포와 달라져, 보상 점수는 향상되지만 디코딩된 이미지 품질은 저하된다. 이러한 불일치를 해결하기 위해, 본 논문은 이산 T2I 생성을 위한 최초의 종단간 사후 훈련 프레임워크인 RankE를 제안한다. RankE는 고정된 디코더에 대해 정책을 최적화하는 대신, 교대 최적화를 통해 두 구성 요소를 공동으로 진화시킨다. 각 모듈은 순위 기반 정렬 목표를 최대화하는 동시에, 각각의 파라미터 공간에 적합한 안정성 유지 앵커로 규제된다. 이러한 공동 진화는 고정 디코더 접근법의 문제인 충실도-정렬 트레이드오프를 해소한다. LlamaGen-XL(775M)에서 표준 강화학습은 CLIP을 향상시키지만 FID를 악화시키는 반면, RankE는 두 지표를 동시에 개선한다(MS-COCO 30K에서 FID 15.21, CLIP 33.76). Janus-Pro(1B)에서의 일관된 성능 향상은 디코더 공동 진화가 보상 최적화를 픽셀 공간의 품질 개선으로 안정적으로 변환함을 확인한다.
English
Discrete autoregressive (AR) text-to-image (T2I) models pair a VQ tokenizer with an AR policy, and current post-training pipelines optimize only the policy while keeping the VQ decoder frozen. Recent diffusion T2I work, exemplified by REPA-E, has shown that the VAE itself constitutes a key alignment bottleneck, yet no analogous investigation exists for discrete AR models. We show that policy-only optimization induces Latent Covariate Shift: as the policy evolves, the resulting token distribution diverges from the ground-truth distribution on which the decoder was trained, such that reward scores improve while decoded image quality degrades. To address this mismatch, we propose RankE, the first end-to-end post-training framework for discrete T2I generation. Rather than optimizing the policy against a fixed decoder, RankE co-evolves both components through alternating optimization: each module maximizes a ranking-based alignment objective while being regularized by a stability-preserving anchor suited to its parameter space. This co-evolution breaks the fidelity--alignment trade-off that plagues frozen-decoder approaches: on LlamaGen-XL (775M), standard RL improves CLIP but degrades FID, whereas RankE improves both simultaneously (FID 15.21, CLIP 33.76 on MS-COCO 30K). Consistent gains on Janus-Pro (1B) confirm that decoder co-evolution reliably converts reward optimization into pixel-space quality improvements.