ChatPaper.aiChatPaper

Flow-OPD : Distillation en Politique Courante pour les Modèles de Flow Matching

Flow-OPD: On-Policy Distillation for Flow Matching Models

May 8, 2026
Auteurs: Zhen Fang, Wenxuan Huang, Yu Zeng, Yiming Zhao, Shuang Chen, Kaituo Feng, Yunlong Lin, Lin Chen, Zehui Chen, Shaosheng Cao, Feng Zhao
cs.AI

Résumé

Les modèles de génération d'images par appariement de flux (Flow Matching, FM) souffrent actuellement de deux goulots d'étranglement critiques dans le cadre de l'alignement multitâche : la parcimonie des récompenses induite par des récompenses scalaires, et les interférences de gradient résultant de l'optimisation conjointe d'objectifs hétérogènes, ce qui engendre un "effet de bascule" entre métriques concurrentes et un détournement généralisé des récompenses. Inspirés par le succès de la distillation sur politique (On-Policy Distillation, OPD) dans le domaine des grands modèles linguistiques, nous proposons Flow-OPD, le premier cadre unifié de post-entraînement intégrant la distillation sur politique aux modèles d'appariement de flux. Flow-OPD adopte une stratégie d'alignement en deux étapes : il cultive d'abord des modèles enseignants spécialisés par domaine via un réglage fin GRPO à récompense unique, permettant à chaque expert d'atteindre son plafond de performance isolément ; il établit ensuite une politique initiale robuste grâce à un schéma d'amorçage à froid basé sur les flux, puis consolide de manière transparente des expertises hétérogènes en un seul modèle étudiant via une orchestration en trois étapes (échantillonnage sur politique, étiquetage par routage de tâches et supervision dense au niveau trajectoire). Nous introduisons également la Régularisation par Ancrage sur Variété (Manifold Anchor Regularization, MAR), qui exploite un enseignant agnostique aux tâches pour fournir une supervision sur l'ensemble des données, ancrant la génération à une variété de haute qualité et atténuant efficacement la dégradation esthétique couramment observée dans les alignements purement par apprentissage par renforcement. Implémenté sur Stable Diffusion 3.5 Medium, Flow-OPD élève le score GenEval de 63 à 92 et la précision OCR de 59 à 94, soit une amélioration globale d'environ 10 points par rapport au GRPO standard, tout en préservant la fidélité des images et l'alignement avec les préférences humaines, et en manifestant un effet émergent de "dépassement des enseignants". Ces résultats établissent Flow-OPD comme un paradigme d'alignement scalable pour construire des modèles généralistes de génération d'images à partir de texte.
English
Existing Flow Matching (FM) text-to-image models suffer from two critical bottlenecks under multi-task alignment: the reward sparsity induced by scalar-valued rewards, and the gradient interference arising from jointly optimizing heterogeneous objectives, which together give rise to a 'seesaw effect' of competing metrics and pervasive reward hacking. Inspired by the success of On-Policy Distillation (OPD) in the large language model community, we propose Flow-OPD, the first unified post-training framework that integrates on-policy distillation into Flow Matching models. Flow-OPD adopts a two-stage alignment strategy: it first cultivates domain-specialized teacher models via single-reward GRPO fine-tuning, allowing each expert to reach its performance ceiling in isolation; it then establishes a robust initial policy through a Flow-based Cold-Start scheme and seamlessly consolidates heterogeneous expertise into a single student via a three-step orchestration of on-policy sampling, task-routing labeling, and dense trajectory-level supervision. We further introduce Manifold Anchor Regularization (MAR), which leverages a task-agnostic teacher to provide full-data supervision that anchors generation to a high-quality manifold, effectively mitigating the aesthetic degradation commonly observed in purely RL-driven alignment. Built upon Stable Diffusion 3.5 Medium, Flow-OPD raises the GenEval score from 63 to 92 and the OCR accuracy from 59 to 94, yielding an overall improvement of roughly 10 points over vanilla GRPO, while preserving image fidelity and human-preference alignment and exhibiting an emergent 'teacher-surpassing' effect. These results establish Flow-OPD as a scalable alignment paradigm for building generalist text-to-image models.
PDF731May 12, 2026