RankE: Post-entrenamiento de extremo a extremo para generación discreta de texto a imagen con co-evolución del decodificador

Resumen

Los modelos de texto a imagen (T2I) autoregresivos (AR) discretos emparejan un tokenizador VQ con una política AR, y los pipelines actuales de post-entrenamiento optimizan únicamente la política mientras mantienen congelado el decodificador VQ. Trabajos recientes sobre T2I por difusión, ejemplificados por REPA-E, han demostrado que el propio VAE constituye un cuello de botella clave en la alineación, sin que exista una investigación análoga para modelos AR discretos. Demostramos que la optimización solo de la política induce un Desplazamiento de Covariables Latentes: a medida que la política evoluciona, la distribución resultante de tokens diverge de la distribución real con la que se entrenó el decodificador, de modo que las puntuaciones de recompensa mejoran mientras que la calidad de la imagen decodificada se degrada. Para abordar esta discrepancia, proponemos RankE, el primer marco de post-entrenamiento de extremo a extremo para generación T2I discreta. En lugar de optimizar la política frente a un decodificador fijo, RankE co-evoluciona ambos componentes mediante optimización alternada: cada módulo maximiza un objetivo de alineación basado en rankings, a la vez que se regulariza mediante un ancla de preservación de estabilidad adaptada a su espacio de parámetros. Esta co-evolución rompe el equilibrio entre fidelidad y alineación que afecta a los enfoques de decodificador congelado: en LlamaGen-XL (775M), el RL estándar mejora CLIP pero empeora FID, mientras que RankE mejora ambos simultáneamente (FID 15.21, CLIP 33.76 en MS-COCO 30K). Las mejoras consistentes en Janus-Pro (1B) confirman que la co-evolución del decodificador convierte de manera fiable la optimización de recompensas en mejoras de calidad a nivel de píxeles.

English

Discrete autoregressive (AR) text-to-image (T2I) models pair a VQ tokenizer with an AR policy, and current post-training pipelines optimize only the policy while keeping the VQ decoder frozen. Recent diffusion T2I work, exemplified by REPA-E, has shown that the VAE itself constitutes a key alignment bottleneck, yet no analogous investigation exists for discrete AR models. We show that policy-only optimization induces Latent Covariate Shift: as the policy evolves, the resulting token distribution diverges from the ground-truth distribution on which the decoder was trained, such that reward scores improve while decoded image quality degrades. To address this mismatch, we propose RankE, the first end-to-end post-training framework for discrete T2I generation. Rather than optimizing the policy against a fixed decoder, RankE co-evolves both components through alternating optimization: each module maximizes a ranking-based alignment objective while being regularized by a stability-preserving anchor suited to its parameter space. This co-evolution breaks the fidelity--alignment trade-off that plagues frozen-decoder approaches: on LlamaGen-XL (775M), standard RL improves CLIP but degrades FID, whereas RankE improves both simultaneously (FID 15.21, CLIP 33.76 on MS-COCO 30K). Consistent gains on Janus-Pro (1B) confirm that decoder co-evolution reliably converts reward optimization into pixel-space quality improvements.