La recompensa siempre estuvo en tus datos: Corrección del emparejamiento de flujo con RL guiado por discriminador

Resumen

Los modelos de coincidencia de scores y flujos a menudo recurren al aprendizaje por refuerzo basado en preferencias con dos propósitos: alinearse con preferencias subjetivas y, sorprendentemente, recuperar propiedades como el realismo visual y la estructura coherente de objetos que el entrenamiento basado en coincidencias pretende aprender de los propios datos. Sostenemos que esto refleja un desajuste estructural. Las funciones de pérdida por coincidencia miden el error de regresión \( \ell_2 \) sobre el campo de velocidad o score bajo las marginales de tiempo de entrenamiento, un proxy poco alineado con las propiedades visuales y semánticas que determinan la calidad de las muestras en inferencia. Dada una recompensa alineada con estas propiedades, el RL evita el desajuste al evaluar el modelo en sus propias muestras y seguir directamente el panorama de recompensas. El desafío radica en obtener tal recompensa sin depender de preferencias humanas, que son costosas y confunden el realismo de los datos con las inclinaciones del anotador. Proponemos el RL Guiado por Discriminador (DRL). DRL entrena un discriminador para separar los datos de las muestras del modelo base en un espacio de representación preentrenado y utiliza su logit como recompensa en el RL regularizado con KL. El espacio preentrenado restringe el discriminador a direcciones perceptuales significativas, y el logit estima el cociente de log-verosimilitud entre los datos y el modelo, que es la recompensa óptima para apuntar a la distribución de datos. En SiT, JiT, REPA y RAE, DRL reduce el FID sin guía (p. ej., de 9.38 a 2.62 en SiT) y el FD en espacio semántico (p. ej., de 88.2 a 19.3 en DINOv3 para SiT), con mejoras consistentes en todos los backbones, y mejora las recompensas de preferencia humana sin entrenarse en ellas. También produce una mejor frontera de Pareto entre la recompensa de preferencia y la fidelidad de la imagen bajo un posterior post-entrenamiento basado en preferencias, aumentando la alineación y reduciendo artefactos de bajo nivel como la sobresaturación y el brillo excesivo.

English

Score- and flow-matching models often rely on preference-based reinforcement learning for two purposes: aligning with subjective preferences and, surprisingly, recovering properties such as visual realism and coherent object structure that matching-based training is intended to learn from the data itself. We argue that this reflects a structural mismatch. Matching losses measure ell_2 regression error on the velocity or score field under training-time marginals, a proxy poorly aligned with the visual and semantic properties that determine sample quality at inference. Given a reward aligned with these properties, RL sidesteps the mismatch by evaluating the model on its own samples and following the reward landscape directly. The challenge is to obtain such a reward without relying on human preferences, which are expensive and conflate data realism with annotator inclinations. We propose Discriminator-Guided RL (DRL). DRL trains a discriminator to separate data from base-model samples in a pretrained representation space and uses its logit as the reward in KL-regularized RL. The pretrained space restricts the discriminator to perceptually meaningful directions, and the logit estimates the log-likelihood ratio between data and model, which is the optimal reward for targeting the data distribution. Across SiT, JiT, REPA, and RAE, DRL reduces guidance-free FID (e.g., 9.38 to 2.62 on SiT) and semantic-space FD (e.g., 88.2 to 19.3 on DINOv3 for SiT), with consistent gains across all backbones, and improves human-preference rewards without training on them. It also yields a better Pareto frontier between preference reward and image fidelity under subsequent preference-based post-training, increasing alignment while reducing low-level artifacts such as oversaturation and excessive brightness.