Flow-OPD: On-Policy-Destillation für Flow-Matching-Modelle

Zusammenfassung

Bestehende Flow-Matching (FM)-Text-zu-Bild-Modelle leiden unter zwei kritischen Engpässen bei der Multi-Task-Ausrichtung: der Belohnungssparsamkeit durch skalare Belohnungen und der Gradienteninterferenz aufgrund der gemeinsamen Optimierung heterogener Ziele, was zusammen zu einem „Wippeffekt“ konkurrierender Metriken und weitverbreitetem Reward Hacking führt. Inspiriert vom Erfolg von On-Policy Distillation (OPD) in der Large-Language-Model-Community schlagen wir Flow-OPD vor, den ersten einheitlichen Post-Training-Rahmen, der On-Policy-Distillation in Flow-Matching-Modelle integriert. Flow-OPD verfolgt eine Zwei-Phasen-Ausrichtungsstrategie: Zunächst kultiviert es domänenspezialisierte Lehrermodelle durch GRPO-Feintuning mit Einzelbelohnung, sodass jeder Experte isoliert seine Leistungsobergrenze erreicht; anschließend etabliert es eine robuste Initialpolitik durch ein Flow-basiertes Cold-Start-Schema und konsolidiert nahtlos heterogene Expertise in einem einzigen Schülermodell durch eine dreistufige Orchestrierung aus On-Policy-Sampling, Task-Routing-Labeling und dichter Trajektorienüberwachung. Wir führen zusätzlich die Manifold-Anchor-Regularisierung (MAR) ein, die ein aufgabenagnostisches Lehrermodell nutzt, um eine vollständige Datenüberwachung bereitzustellen, die die Generierung an eine hochwertige Mannigfaltigkeit bindet und so die ästhetische Verschlechterung effektiv mindert, die häufig bei rein RL-gesteuerter Ausrichtung beobachtet wird. Basierend auf Stable Diffusion 3.5 Medium steigert Flow-OPD den GenEval-Score von 63 auf 92 und die OCR-Genauigkeit von 59 auf 94, was eine Gesamtverbesserung von etwa 10 Punkten gegenüber herkömmlichem GRPO darstellt, bei gleichzeitiger Bewahrung der Bildtreue und menschlicher Präferenzausrichtung sowie einem auftretenden „Lehrer-übertreffenden“ Effekt. Diese Ergebnisse etablieren Flow-OPD als skalierbares Ausrichtungsparadigma für die Entwicklung generalistischer Text-zu-Bild-Modelle.

English

Existing Flow Matching (FM) text-to-image models suffer from two critical bottlenecks under multi-task alignment: the reward sparsity induced by scalar-valued rewards, and the gradient interference arising from jointly optimizing heterogeneous objectives, which together give rise to a 'seesaw effect' of competing metrics and pervasive reward hacking. Inspired by the success of On-Policy Distillation (OPD) in the large language model community, we propose Flow-OPD, the first unified post-training framework that integrates on-policy distillation into Flow Matching models. Flow-OPD adopts a two-stage alignment strategy: it first cultivates domain-specialized teacher models via single-reward GRPO fine-tuning, allowing each expert to reach its performance ceiling in isolation; it then establishes a robust initial policy through a Flow-based Cold-Start scheme and seamlessly consolidates heterogeneous expertise into a single student via a three-step orchestration of on-policy sampling, task-routing labeling, and dense trajectory-level supervision. We further introduce Manifold Anchor Regularization (MAR), which leverages a task-agnostic teacher to provide full-data supervision that anchors generation to a high-quality manifold, effectively mitigating the aesthetic degradation commonly observed in purely RL-driven alignment. Built upon Stable Diffusion 3.5 Medium, Flow-OPD raises the GenEval score from 63 to 92 and the OCR accuracy from 59 to 94, yielding an overall improvement of roughly 10 points over vanilla GRPO, while preserving image fidelity and human-preference alignment and exhibiting an emergent 'teacher-surpassing' effect. These results establish Flow-OPD as a scalable alignment paradigm for building generalist text-to-image models.

Flow-OPD: On-Policy-Destillation für Flow-Matching-Modelle

Flow-OPD: On-Policy Distillation for Flow Matching Models

Zusammenfassung

Support