Die Belohnung steckte die ganze Zeit in Ihren Daten: Korrektur von Flow Matching mit diskriminatorgesteuertem RL
The Reward Was in Your Data All Along: Correcting Flow Matching with Discriminator-Guided RL
June 17, 2026
Autoren: Nicolas Beltran-Velez, Felix Friedrich, Zhang Xiaofeng, Reyhane Askari-Hemmat, Xiaochuang Han, Adriana Romero-Soriano, Michal Drozdzal
cs.AI
Zusammenfassung
Score- und Flow-Matching-Modelle verlassen sich häufig aus zwei Gründen auf präferenzbasiertes Reinforcement Learning: um sich an subjektiven Präferenzen auszurichten und, überraschenderweise, um Eigenschaften wie visuelle Realitätstreue und kohärente Objektstrukturen wiederherzustellen, die das matching-basierte Training eigentlich aus den Daten selbst lernen soll. Wir argumentieren, dass dies eine strukturelle Diskrepanz widerspiegelt. Matching-Verluste messen den l2-Regressionsfehler im Geschwindigkeits- oder Score-Feld unter den Randverteilungen zum Trainingszeitpunkt – ein Proxy, der schlecht mit den visuellen und semantischen Eigenschaften übereinstimmt, die die Stichprobenqualität zur Inferenzzeit bestimmen. Mit einer auf diese Eigenschaften abgestimmten Belohnung umgeht RL die Diskrepanz, indem es das Modell anhand seiner eigenen Stichproben bewertet und der Belohnungslandschaft direkt folgt. Die Herausforderung besteht darin, eine solche Belohnung zu erhalten, ohne sich auf menschliche Präferenzen zu stützen, die teuer sind und Datenrealitätstreue mit den Neigungen der Annotatoren vermischen.
Wir schlagen Discriminator-Guided RL (DRL) vor. DRL trainiert einen Diskriminator, um Daten von Stichproben des Basis-Modells in einem vortrainierten Repräsentationsraum zu trennen, und verwendet dessen Logit als Belohnung im KL-regulierten RL. Der vortrainierte Raum schränkt den Diskriminator auf wahrnehmungsbezogen sinnvolle Richtungen ein, und der Logit schätzt das Log-Likelihood-Verhältnis zwischen Daten und Modell, was die optimale Belohnung zur Zielausrichtung auf die Datenverteilung darstellt. In SiT, JiT, REPA und RAE reduziert DRL den führungsfreien FID (z. B. von 9,38 auf 2,62 bei SiT) und die semantische FD (z. B. von 88,2 auf 19,3 bei DINOv3 für SiT) mit konsistenten Verbesserungen über alle Backbones hinweg und verbessert die Belohnungen für menschliche Präferenzen, ohne dass auf diesen trainiert wird. Darüber hinaus ergibt sich eine bessere Pareto-Frontier zwischen Präferenzbelohnung und Bildtreue unter anschließendem präferenzbasiertem Post-Training, was die Ausrichtung verbessert und gleichzeitig niederfrequente Artefakte wie Übersättigung und übermäßige Helligkeit reduziert.
English
Score- and flow-matching models often rely on preference-based reinforcement learning for two purposes: aligning with subjective preferences and, surprisingly, recovering properties such as visual realism and coherent object structure that matching-based training is intended to learn from the data itself. We argue that this reflects a structural mismatch. Matching losses measure ell_2 regression error on the velocity or score field under training-time marginals, a proxy poorly aligned with the visual and semantic properties that determine sample quality at inference. Given a reward aligned with these properties, RL sidesteps the mismatch by evaluating the model on its own samples and following the reward landscape directly. The challenge is to obtain such a reward without relying on human preferences, which are expensive and conflate data realism with annotator inclinations.
We propose Discriminator-Guided RL (DRL). DRL trains a discriminator to separate data from base-model samples in a pretrained representation space and uses its logit as the reward in KL-regularized RL. The pretrained space restricts the discriminator to perceptually meaningful directions, and the logit estimates the log-likelihood ratio between data and model, which is the optimal reward for targeting the data distribution. Across SiT, JiT, REPA, and RAE, DRL reduces guidance-free FID (e.g., 9.38 to 2.62 on SiT) and semantic-space FD (e.g., 88.2 to 19.3 on DINOv3 for SiT), with consistent gains across all backbones, and improves human-preference rewards without training on them. It also yields a better Pareto frontier between preference reward and image fidelity under subsequent preference-based post-training, increasing alignment while reducing low-level artifacts such as oversaturation and excessive brightness.