La récompense était dans vos données depuis le début : corriger le Flow Matching avec l'apprentissage par renforcement guidé par discriminateur

Résumé

Les modèles d’appariement de score et de flot recourent souvent à l’apprentissage par renforcement basé sur les préférences pour deux objectifs : s’aligner sur des préférences subjectives et, de manière surprenante, récupérer des propriétés telles que le réalisme visuel et la structure cohérente des objets que l’entraînement par appariement est censé apprendre à partir des données elles-mêmes. Nous soutenons que cela reflète un décalage structurel. Les pertes d’appariement mesurent l’erreur de régression en norme ell_2 sur le champ de vitesse ou de score sous les marginales temporelles de l’entraînement, un proxy mal aligné avec les propriétés visuelles et sémantiques qui déterminent la qualité des échantillons à l’inférence. Étant donné une récompense alignée sur ces propriétés, l’apprentissage par renforcement contourne le décalage en évaluant le modèle sur ses propres échantillons et en suivant directement le paysage de récompense. Le défi consiste à obtenir une telle récompense sans recourir aux préférences humaines, qui sont coûteuses et confondent le réalisme des données avec les inclinations des annotateurs. Nous proposons l’apprentissage par renforcement guidé par un discriminateur (DRL). DRL entraîne un discriminateur à séparer les données des échantillons du modèle de base dans un espace de représentation pré-entraîné et utilise son logit comme récompense dans un apprentissage par renforcement régularisé par KL. L’espace pré-entraîné restreint le discriminateur à des directions perceptuellement significatives, et le logit estime le rapport de vraisemblance logarithmique entre les données et le modèle, ce qui constitue la récompense optimale pour cibler la distribution des données. Sur SiT, JiT, REPA et RAE, DRL réduit le FID sans guidage (par exemple, de 9,38 à 2,62 sur SiT) et le FD dans l’espace sémantique (par exemple, de 88,2 à 19,3 sur DINOv3 pour SiT), avec des gains constants sur tous les modèles de base, et améliore les récompenses de préférence humaine sans s’entraîner sur celles-ci. Il produit également une meilleure frontière de Pareto entre la récompense de préférence et la fidélité de l’image lors d’un post-entraînement ultérieur basé sur les préférences, augmentant l’alignement tout en réduisant les artefacts de bas niveau tels que la sursaturation et la luminosité excessive.

English

Score- and flow-matching models often rely on preference-based reinforcement learning for two purposes: aligning with subjective preferences and, surprisingly, recovering properties such as visual realism and coherent object structure that matching-based training is intended to learn from the data itself. We argue that this reflects a structural mismatch. Matching losses measure ell_2 regression error on the velocity or score field under training-time marginals, a proxy poorly aligned with the visual and semantic properties that determine sample quality at inference. Given a reward aligned with these properties, RL sidesteps the mismatch by evaluating the model on its own samples and following the reward landscape directly. The challenge is to obtain such a reward without relying on human preferences, which are expensive and conflate data realism with annotator inclinations. We propose Discriminator-Guided RL (DRL). DRL trains a discriminator to separate data from base-model samples in a pretrained representation space and uses its logit as the reward in KL-regularized RL. The pretrained space restricts the discriminator to perceptually meaningful directions, and the logit estimates the log-likelihood ratio between data and model, which is the optimal reward for targeting the data distribution. Across SiT, JiT, REPA, and RAE, DRL reduces guidance-free FID (e.g., 9.38 to 2.62 on SiT) and semantic-space FD (e.g., 88.2 to 19.3 on DINOv3 for SiT), with consistent gains across all backbones, and improves human-preference rewards without training on them. It also yields a better Pareto frontier between preference reward and image fidelity under subsequent preference-based post-training, increasing alignment while reducing low-level artifacts such as oversaturation and excessive brightness.