RankE: Pós-Treinamento Fim a Fim para Geração Discreta de Texto para Imagem com Co-Evolução do Decodificador
RankE: End-to-End Post-Training for Discrete Text-to-Image Generation with Decoder Co-Evolution
May 20, 2026
Autores: Siyong Jian, Siyuan Li, Luyuan Zhang, Zedong Wang, Xin Jin, Ying Li, Cheng Tan, Huan Wang
cs.AI
Resumo
Modelos autoregressivos discretos (AR) de texto para imagem (T2I) combinam um tokenizador VQ com uma política AR, e os pipelines atuais de pós-treinamento otimizam apenas a política, mantendo o decodificador VQ congelado. Trabalhos recentes sobre difusão T2I, exemplificados por REPA-E, mostraram que o próprio VAE constitui um gargalo chave de alinhamento, mas não existe investigação análoga para modelos AR discretos. Mostramos que a otimização apenas da política induz Mudança de Covariável Latente: à medida que a política evolui, a distribuição de tokens resultante diverge da distribuição de referência na qual o decodificador foi treinado, de modo que as pontuações de recompensa melhoram enquanto a qualidade da imagem decodificada se degrada. Para resolver essa incompatibilidade, propomos RankE, a primeira estrutura de pós-treinamento ponta a ponta para geração discreta T2I. Em vez de otimizar a política contra um decodificador fixo, RankE coevolui ambos os componentes por meio de otimização alternada: cada módulo maximiza um objetivo de alinhamento baseado em ranqueamento, sendo regularizado por uma âncora de preservação de estabilidade adequada ao seu espaço de parâmetros. Essa coevolução rompe o compromisso fidelidade–alinhamento que afeta abordagens com decodificador congelado: no LlamaGen-XL (775M), o RL padrão melhora o CLIP, mas degrada o FID, enquanto RankE melhora ambos simultaneamente (FID 15,21, CLIP 33,76 no MS-COCO 30K). Ganhos consistentes no Janus-Pro (1B) confirmam que a coevolução do decodificador converte de forma confiável a otimização de recompensa em melhorias de qualidade no espaço dos pixels.
English
Discrete autoregressive (AR) text-to-image (T2I) models pair a VQ tokenizer with an AR policy, and current post-training pipelines optimize only the policy while keeping the VQ decoder frozen. Recent diffusion T2I work, exemplified by REPA-E, has shown that the VAE itself constitutes a key alignment bottleneck, yet no analogous investigation exists for discrete AR models. We show that policy-only optimization induces Latent Covariate Shift: as the policy evolves, the resulting token distribution diverges from the ground-truth distribution on which the decoder was trained, such that reward scores improve while decoded image quality degrades. To address this mismatch, we propose RankE, the first end-to-end post-training framework for discrete T2I generation. Rather than optimizing the policy against a fixed decoder, RankE co-evolves both components through alternating optimization: each module maximizes a ranking-based alignment objective while being regularized by a stability-preserving anchor suited to its parameter space. This co-evolution breaks the fidelity--alignment trade-off that plagues frozen-decoder approaches: on LlamaGen-XL (775M), standard RL improves CLIP but degrades FID, whereas RankE improves both simultaneously (FID 15.21, CLIP 33.76 on MS-COCO 30K). Consistent gains on Janus-Pro (1B) confirm that decoder co-evolution reliably converts reward optimization into pixel-space quality improvements.