A Recompensa Esteve em Seus Dados o Tempo Todo: Corrigindo Correspondência de Fluxo com RL Guiado por Discriminador

Resumo

Modelos de correspondência de pontuação e fluxo frequentemente dependem de aprendizado por reforço baseado em preferências para dois propósitos: alinhar com preferências subjetivas e, surpreendentemente, recuperar propriedades como realismo visual e estrutura coerente de objetos, que o treinamento baseado em correspondência deveria aprender a partir dos próprios dados. Argumentamos que isso reflete uma incompatibilidade estrutural. As perdas de correspondência medem o erro de regressão ell_2 no campo de velocidade ou pontuação sob as marginais do tempo de treinamento, uma proxy mal alinhada com as propriedades visuais e semânticas que determinam a qualidade da amostra na inferência. Dada uma recompensa alinhada com essas propriedades, o RL contorna a incompatibilidade ao avaliar o modelo em suas próprias amostras e seguir diretamente a paisagem de recompensas. O desafio é obter tal recompensa sem depender de preferências humanas, que são caras e confundem realismo de dados com inclinações dos anotadores. Propomos o RL Guiado por Discriminador (DRL). O DRL treina um discriminador para separar dados de amostras do modelo base em um espaço de representação pré-treinado e usa seu logit como recompensa no RL regularizado por KL. O espaço pré-treinado restringe o discriminador a direções perceptualmente significativas, e o logit estima a razão de verossimilhança logarítmica entre dados e modelo, que é a recompensa ótima para direcionar a distribuição dos dados. Através de SiT, JiT, REPA e RAE, o DRL reduz FID sem orientação (por exemplo, de 9,38 para 2,62 no SiT) e FD no espaço semântico (por exemplo, de 88,2 para 19,3 no DINOv3 para SiT), com ganhos consistentes em todas as arquiteturas, e melhora as recompensas de preferência humana sem treinar nelas. Também produz uma melhor fronteira de Pareto entre recompensa de preferência e fidelidade de imagem sob pós-treinamento subsequente baseado em preferência, aumentando o alinhamento enquanto reduz artefatos de baixo nível, como saturação excessiva e brilho excessivo.

English

Score- and flow-matching models often rely on preference-based reinforcement learning for two purposes: aligning with subjective preferences and, surprisingly, recovering properties such as visual realism and coherent object structure that matching-based training is intended to learn from the data itself. We argue that this reflects a structural mismatch. Matching losses measure ell_2 regression error on the velocity or score field under training-time marginals, a proxy poorly aligned with the visual and semantic properties that determine sample quality at inference. Given a reward aligned with these properties, RL sidesteps the mismatch by evaluating the model on its own samples and following the reward landscape directly. The challenge is to obtain such a reward without relying on human preferences, which are expensive and conflate data realism with annotator inclinations. We propose Discriminator-Guided RL (DRL). DRL trains a discriminator to separate data from base-model samples in a pretrained representation space and uses its logit as the reward in KL-regularized RL. The pretrained space restricts the discriminator to perceptually meaningful directions, and the logit estimates the log-likelihood ratio between data and model, which is the optimal reward for targeting the data distribution. Across SiT, JiT, REPA, and RAE, DRL reduces guidance-free FID (e.g., 9.38 to 2.62 on SiT) and semantic-space FD (e.g., 88.2 to 19.3 on DINOv3 for SiT), with consistent gains across all backbones, and improves human-preference rewards without training on them. It also yields a better Pareto frontier between preference reward and image fidelity under subsequent preference-based post-training, increasing alignment while reducing low-level artifacts such as oversaturation and excessive brightness.