Flow-OPD: Дистилляция стратегии обучения для моделей Flow Matching
Flow-OPD: On-Policy Distillation for Flow Matching Models
May 8, 2026
Авторы: Zhen Fang, Wenxuan Huang, Yu Zeng, Yiming Zhao, Shuang Chen, Kaituo Feng, Yunlong Lin, Lin Chen, Zehui Chen, Shaosheng Cao, Feng Zhao
cs.AI
Аннотация
Существующие модели генерации изображений на основе текста с использованием Flow Matching (FM) сталкиваются с двумя ключевыми проблемами при многозадачном согласовании: разреженностью вознаграждения, вызванной скалярными наградами, и интерференцией градиентов из-за совместной оптимизации разнородных целевых функций, что приводит к "эффекту качелей" конкурирующих метрик и повсеместному взлому вознаграждений. Вдохновившись успехом On-Policy Distillation (OPD) в сообществе больших языковых моделей, мы предлагаем Flow-OPD — первую унифицированную посттренировочную платформу, интегрирующую дистилляцию на основе политики в модели Flow Matching. Flow-OPD использует двухэтапную стратегию согласования: сначала она формирует специализированные учительские модели через тонкую настройку GRPO с единичным вознаграждением, позволяя каждому эксперту достичь своего потолка производительности изолированно; затем создает надежную начальную политику с помощью схемы Flow-based Cold-Start и бесшовно объединяет разнородные экспертизы в единую студенческую модель через трехэтапную оркестрацию — сэмплинг на основе политики, маркировку маршрутизации задач и плотный надзор на уровне траекторий. Мы также вводим Manifold Anchor Regularization (MAR), которая использует учительскую модель, не зависящую от задач, для обеспечения полноданного надзора, привязывая генерацию к высококачественному многообразию и эффективно смягчая эстетическую деградацию, характерную для чисто RL-ориентированного согласования. На основе Stable Diffusion 3.5 Medium Flow-OPD повышает оценку GenEval с 63 до 92 и точность OCR с 59 до 94, демонстрируя общее улучшение примерно на 10 пунктов по сравнению с базовым GRPO, сохраняя при этом четкость изображений и соответствие человеческим предпочтениям, а также проявляя возникающий "эффект превосходства над учителем". Эти результаты подтверждают Flow-OPD как масштабируемую парадигму согласования для создания универсальных моделей генерации изображений из текста.
English
Existing Flow Matching (FM) text-to-image models suffer from two critical bottlenecks under multi-task alignment: the reward sparsity induced by scalar-valued rewards, and the gradient interference arising from jointly optimizing heterogeneous objectives, which together give rise to a 'seesaw effect' of competing metrics and pervasive reward hacking. Inspired by the success of On-Policy Distillation (OPD) in the large language model community, we propose Flow-OPD, the first unified post-training framework that integrates on-policy distillation into Flow Matching models. Flow-OPD adopts a two-stage alignment strategy: it first cultivates domain-specialized teacher models via single-reward GRPO fine-tuning, allowing each expert to reach its performance ceiling in isolation; it then establishes a robust initial policy through a Flow-based Cold-Start scheme and seamlessly consolidates heterogeneous expertise into a single student via a three-step orchestration of on-policy sampling, task-routing labeling, and dense trajectory-level supervision. We further introduce Manifold Anchor Regularization (MAR), which leverages a task-agnostic teacher to provide full-data supervision that anchors generation to a high-quality manifold, effectively mitigating the aesthetic degradation commonly observed in purely RL-driven alignment. Built upon Stable Diffusion 3.5 Medium, Flow-OPD raises the GenEval score from 63 to 92 and the OCR accuracy from 59 to 94, yielding an overall improvement of roughly 10 points over vanilla GRPO, while preserving image fidelity and human-preference alignment and exhibiting an emergent 'teacher-surpassing' effect. These results establish Flow-OPD as a scalable alignment paradigm for building generalist text-to-image models.