RankE : Post-entraînement de bout en bout pour la génération discrète de texte en image avec co-évolution du décodeur

Résumé

Les modèles autorégressifs discrets (AR) de génération texte-image (T2I) associent un tokenizer VQ à une politique AR, et les pipelines de post-entraînement actuels n'optimisent que la politique tout en maintenant le décodeur VQ gelé. Des travaux récents sur la génération T2I par diffusion, illustrés par REPA-E, ont montré que le VAE lui-même constitue un goulot d'étranglement clé pour l'alignement, mais aucune investigation analogue n'existe pour les modèles AR discrets. Nous montrons que l'optimisation de la politique seule induit un Décalage des Covariables Latentes : à mesure que la politique évolue, la distribution des tokens résultante s'écarte de la distribution de vérité terrain sur laquelle le décodeur a été entraîné, de sorte que les scores de récompense s'améliorent tandis que la qualité des images décodées se dégrade. Pour remédier à ce décalage, nous proposons RankE, le premier cadre de post-entraînement de bout en bout pour la génération T2I discrète. Plutôt que d'optimiser la politique par rapport à un décodeur fixe, RankE fait co-évoluer les deux composants via une optimisation alternée : chaque module maximise un objectif d'alignement basé sur le classement tout en étant régularisé par une ancre préservant la stabilité adaptée à son espace de paramètres. Cette co-évolution brise le compromis fidélité-alignement qui affecte les approches à décodeur gelé : sur LlamaGen-XL (775M), le RL standard améliore le CLIP mais dégrade le FID, tandis que RankE améliore les deux simultanément (FID 15.21, CLIP 33.76 sur MS-COCO 30K). Des gains cohérents sur Janus-Pro (1B) confirment que la co-évolution du décodeur convertit de manière fiable l'optimisation des récompenses en améliorations de la qualité dans l'espace des pixels.

English

Discrete autoregressive (AR) text-to-image (T2I) models pair a VQ tokenizer with an AR policy, and current post-training pipelines optimize only the policy while keeping the VQ decoder frozen. Recent diffusion T2I work, exemplified by REPA-E, has shown that the VAE itself constitutes a key alignment bottleneck, yet no analogous investigation exists for discrete AR models. We show that policy-only optimization induces Latent Covariate Shift: as the policy evolves, the resulting token distribution diverges from the ground-truth distribution on which the decoder was trained, such that reward scores improve while decoded image quality degrades. To address this mismatch, we propose RankE, the first end-to-end post-training framework for discrete T2I generation. Rather than optimizing the policy against a fixed decoder, RankE co-evolves both components through alternating optimization: each module maximizes a ranking-based alignment objective while being regularized by a stability-preserving anchor suited to its parameter space. This co-evolution breaks the fidelity--alignment trade-off that plagues frozen-decoder approaches: on LlamaGen-XL (775M), standard RL improves CLIP but degrades FID, whereas RankE improves both simultaneously (FID 15.21, CLIP 33.76 on MS-COCO 30K). Consistent gains on Janus-Pro (1B) confirm that decoder co-evolution reliably converts reward optimization into pixel-space quality improvements.