ChatPaper.aiChatPaper

Награда все это время была в ваших данных: коррекция согласования потоков с помощью управляемого дискриминатором обучения с подкреплением

The Reward Was in Your Data All Along: Correcting Flow Matching with Discriminator-Guided RL

June 17, 2026
Авторы: Nicolas Beltran-Velez, Felix Friedrich, Zhang Xiaofeng, Reyhane Askari-Hemmat, Xiaochuang Han, Adriana Romero-Soriano, Michal Drozdzal
cs.AI

Аннотация

Модели согласования по скору (score) и по потоку (flow) часто используют обучение с подкреплением на основе предпочтений для двух целей: согласования с субъективными предпочтениями и, что удивительно, восстановления таких свойств, как визуальная реалистичность и согласованная структура объектов, которые обучение на основе согласования должно изучать из самих данных. Мы утверждаем, что это отражает структурное несоответствие. Потери согласования измеряют ошибку регрессии по ℓ2 на поле скоростей или скоров при маргинальных распределениях времени обучения, что является прокси-показателем, плохо согласованным с визуальными и семантическими свойствами, определяющими качество выборки во время инференса. При наличии вознаграждения, согласованного с этими свойствами, RL обходит это несоответствие, оценивая модель на собственных выборках и следуя непосредственно ландшафту вознаграждения. Проблема заключается в получении такого вознаграждения без опоры на человеческие предпочтения, которые дороги и смешивают реалистичность данных с наклонностями аннотаторов. Мы предлагаем RL с направляющим дискриминатором (Discriminator-Guided RL, DRL). DRL обучает дискриминатор разделять данные и выборки базовой модели в предварительно обученном пространстве представлений и использует его логит в качестве вознаграждения в RL с KL-регуляризацией. Предварительно обученное пространство ограничивает дискриминатор перцептивно значимыми направлениями, а логит оценивает логарифмическое отношение правдоподобия между данными и моделью, которое является оптимальным вознаграждением для нацеливания на распределение данных. На SiT, JiT, REPA и RAE DRL снижает FID без направляющей (например, с 9.38 до 2.62 на SiT) и FD в семантическом пространстве (например, с 88.2 до 19.3 на DINOv3 для SiT) с последовательным улучшением на всех базовых архитектурах, а также повышает вознаграждения по человеческим предпочтениям без обучения на них. Оно также обеспечивает лучшую границу Парето между вознаграждением по предпочтениям и точностью изображения при последующей пост-тренировке на основе предпочтений, повышая согласованность и снижая низкоуровневые артефакты, такие как перенасыщение и чрезмерная яркость.
English
Score- and flow-matching models often rely on preference-based reinforcement learning for two purposes: aligning with subjective preferences and, surprisingly, recovering properties such as visual realism and coherent object structure that matching-based training is intended to learn from the data itself. We argue that this reflects a structural mismatch. Matching losses measure ell_2 regression error on the velocity or score field under training-time marginals, a proxy poorly aligned with the visual and semantic properties that determine sample quality at inference. Given a reward aligned with these properties, RL sidesteps the mismatch by evaluating the model on its own samples and following the reward landscape directly. The challenge is to obtain such a reward without relying on human preferences, which are expensive and conflate data realism with annotator inclinations. We propose Discriminator-Guided RL (DRL). DRL trains a discriminator to separate data from base-model samples in a pretrained representation space and uses its logit as the reward in KL-regularized RL. The pretrained space restricts the discriminator to perceptually meaningful directions, and the logit estimates the log-likelihood ratio between data and model, which is the optimal reward for targeting the data distribution. Across SiT, JiT, REPA, and RAE, DRL reduces guidance-free FID (e.g., 9.38 to 2.62 on SiT) and semantic-space FD (e.g., 88.2 to 19.3 on DINOv3 for SiT), with consistent gains across all backbones, and improves human-preference rewards without training on them. It also yields a better Pareto frontier between preference reward and image fidelity under subsequent preference-based post-training, increasing alignment while reducing low-level artifacts such as oversaturation and excessive brightness.