De beloning zat altijd al in uw data: flow matching corrigeren met discriminator-gestuurde RL

Samenvatting

Score- en flow-matching modellen steunen vaak op preferentie-gebaseerd reinforcement learning voor twee doeleinden: het afstemmen op subjectieve voorkeuren en, verrassend genoeg, het herstellen van eigenschappen zoals visuele realisme en samenhangende objectstructuur, die matching-gebaseerde training juist uit de data zelf zou moeten leren. Wij stellen dat dit een structurele mismatch weerspiegelt. Matching-verliezen meten de ell_2-regressiefout op het snelheids- of scoreveld onder de randverdelingen tijdens training, een proxy die slecht is afgestemd op de visuele en semantische eigenschappen die de steekproefkwaliteit bij inferentie bepalen. Met een beloning die is afgestemd op deze eigenschappen, omzeilt RL de mismatch door het model te evalueren op zijn eigen steekproeven en direct de beloningslandschap te volgen. De uitdaging is om een dergelijke beloning te verkrijgen zonder afhankelijk te zijn van menselijke voorkeuren, die kostbaar zijn en datarealisme vermengen met de neigingen van de annotator. Wij stellen Discriminator-Guided RL (DRL) voor. DRL traint een discriminator om data te scheiden van basis-model steekproeven in een voorgetrainde representatieruimte en gebruikt zijn logit als de beloning in KL-geregulariseerd RL. De voorgetrainde ruimte beperkt de discriminator tot perceptueel betekenisvolle richtingen, en de logit schat de log-likelihood ratio tussen data en model, wat de optimale beloning is om de dataverdeling te benaderen. Over SiT, JiT, REPA en RAE heen vermindert DRL de guidance-vrije FID (bijv. van 9,38 naar 2,62 op SiT) en de semantische ruimte FD (bijv. van 88,2 naar 19,3 op DINOv3 voor SiT), met consistente verbeteringen over alle backbones, en verbetert het de menselijke-preferentie beloningen zonder daarop te trainen. Het levert ook een betere Pareto-frontier op tussen preferentiebeloning en beeldgetrouwheid bij daaropvolgende preferentie-gebaseerde post-training, waarbij de afstemming toeneemt terwijl laagniveau-artefacten zoals oververzadiging en overmatige helderheid worden verminderd.

English

Score- and flow-matching models often rely on preference-based reinforcement learning for two purposes: aligning with subjective preferences and, surprisingly, recovering properties such as visual realism and coherent object structure that matching-based training is intended to learn from the data itself. We argue that this reflects a structural mismatch. Matching losses measure ell_2 regression error on the velocity or score field under training-time marginals, a proxy poorly aligned with the visual and semantic properties that determine sample quality at inference. Given a reward aligned with these properties, RL sidesteps the mismatch by evaluating the model on its own samples and following the reward landscape directly. The challenge is to obtain such a reward without relying on human preferences, which are expensive and conflate data realism with annotator inclinations. We propose Discriminator-Guided RL (DRL). DRL trains a discriminator to separate data from base-model samples in a pretrained representation space and uses its logit as the reward in KL-regularized RL. The pretrained space restricts the discriminator to perceptually meaningful directions, and the logit estimates the log-likelihood ratio between data and model, which is the optimal reward for targeting the data distribution. Across SiT, JiT, REPA, and RAE, DRL reduces guidance-free FID (e.g., 9.38 to 2.62 on SiT) and semantic-space FD (e.g., 88.2 to 19.3 on DINOv3 for SiT), with consistent gains across all backbones, and improves human-preference rewards without training on them. It also yields a better Pareto frontier between preference reward and image fidelity under subsequent preference-based post-training, increasing alignment while reducing low-level artifacts such as oversaturation and excessive brightness.