RankE: End-to-end post-training voor discrete tekst-naar-afbeelding generatie met decoder co-evolutie

Samenvatting

Discrete autoregressieve (AR) tekst-naar-beeld (T2I) modellen koppelen een VQ-tokenizer aan een AR-beleid, en huidige nabehandelingspijplijnen optimaliseren alleen het beleid terwijl de VQ-decoder bevroren blijft. Recent diffusie-T2I-werk, zoals geïllustreerd door REPA-E, heeft aangetoond dat de VAE zelf een belangrijk uitlijningsknelpunt vormt, maar er bestaat geen analoge studie voor discrete AR-modellen. Wij tonen aan dat optimalisatie van alleen het beleid leidt tot Latente Covariaatverschuiving: naarmate het beleid evolueert, wijkt de resulterende tokenverdeling af van de grondwaarheidsverdeling waarop de decoder is getraind, waardoor de beloningsscores verbeteren terwijl de gedecodeerde beeldkwaliteit verslechtert. Om deze mismatch aan te pakken, stellen we RankE voor, het eerste end-to-end nabehandelingsraamwerk voor discrete T2I-generatie. In plaats van het beleid te optimaliseren ten opzichte van een vaste decoder, laat RankE beide componenten co-evolueren door middel van afwisselende optimalisatie: elke module maximaliseert een op rangschikking gebaseerd uitlijningsdoel, terwijl deze wordt geregulariseerd door een stabiliteitsbehoudend anker dat past bij zijn parameterruimte. Deze co-evolutie doorbreekt de getrouwheid-uitlijning afweging die bevroren-decoder benaderingen teistert: op LlamaGen-XL (775M) verbetert standaard RL CLIP maar verslechtert FID, terwijl RankE beide tegelijkertijd verbetert (FID 15,21, CLIP 33,76 op MS-COCO 30K). Consistente verbeteringen op Janus-Pro (1B) bevestigen dat co-evolutie van de decoder beloningsoptimalisatie betrouwbaar omzet in kwaliteitsverbeteringen in de pixelruimte.

English

Discrete autoregressive (AR) text-to-image (T2I) models pair a VQ tokenizer with an AR policy, and current post-training pipelines optimize only the policy while keeping the VQ decoder frozen. Recent diffusion T2I work, exemplified by REPA-E, has shown that the VAE itself constitutes a key alignment bottleneck, yet no analogous investigation exists for discrete AR models. We show that policy-only optimization induces Latent Covariate Shift: as the policy evolves, the resulting token distribution diverges from the ground-truth distribution on which the decoder was trained, such that reward scores improve while decoded image quality degrades. To address this mismatch, we propose RankE, the first end-to-end post-training framework for discrete T2I generation. Rather than optimizing the policy against a fixed decoder, RankE co-evolves both components through alternating optimization: each module maximizes a ranking-based alignment objective while being regularized by a stability-preserving anchor suited to its parameter space. This co-evolution breaks the fidelity--alignment trade-off that plagues frozen-decoder approaches: on LlamaGen-XL (775M), standard RL improves CLIP but degrades FID, whereas RankE improves both simultaneously (FID 15.21, CLIP 33.76 on MS-COCO 30K). Consistent gains on Janus-Pro (1B) confirm that decoder co-evolution reliably converts reward optimization into pixel-space quality improvements.