Flow-OPD: Destilación en Política para Modelos de Emparejamiento de Flujo

Resumen

**Flujo de Emparejamiento Existente (FM) en modelos de texto a imagen** enfrenta dos cuellos de botella críticos en la alineación multitarea: la escasez de recompensas inducida por recompensas escalares y la interferencia de gradientes derivada de la optimización conjunta de objetivos heterogéneos, lo que genera un "efecto balancín" de métricas en competencia y un hackeo generalizado de recompensas. Inspirados por el éxito de la **Destilación en Política Activa (OPD)** en modelos de lenguaje grandes, proponemos **Flow-OPD**, el primer marco unificado de posentrenamiento que integra destilación en política activa en modelos de Flujo de Emparejamiento. Flow-OPD adopta una estrategia de alineación en dos etapas: primero cultiva modelos docentes especializados por dominio mediante ajuste fino con GRPO de recompensa única, permitiendo que cada experto alcance su máximo rendimiento de forma aislada; luego establece una política inicial robusta mediante un esquema de **Arranque en Frío Basado en Flujo** y consolida sinérgicamente conocimientos heterogéneos en un único estudiante mediante una orquestación en tres pasos: muestreo en política activa, etiquetado por enrutamiento de tareas y supervisión densa a nivel de trayectoria. Además, introducimos la **Regularización de Anclaje en Variedad (MAR)**, que aprovecha un docente independiente de la tarea para proporcionar supervisión sobre todos los datos, anclando la generación a una variedad de alta calidad y mitigando eficazmente la degradación estética común en alineaciones basadas únicamente en aprendizaje por refuerzo. Implementado sobre **Stable Diffusion 3.5 Medium**, Flow-OPD eleva la puntuación GenEval de 63 a 92 y la precisión en OCR de 59 a 94, logrando una mejora general de aproximadamente 10 puntos sobre GRPO convencional, mientras preserva la fidelidad de imagen y la alineación con preferencias humanas, exhibiendo además un efecto emergente de "superación al docente". Estos resultados posicionan a Flow-OPD como un paradigma escalable de alineación para modelos generalistas de texto a imagen.

English

Existing Flow Matching (FM) text-to-image models suffer from two critical bottlenecks under multi-task alignment: the reward sparsity induced by scalar-valued rewards, and the gradient interference arising from jointly optimizing heterogeneous objectives, which together give rise to a 'seesaw effect' of competing metrics and pervasive reward hacking. Inspired by the success of On-Policy Distillation (OPD) in the large language model community, we propose Flow-OPD, the first unified post-training framework that integrates on-policy distillation into Flow Matching models. Flow-OPD adopts a two-stage alignment strategy: it first cultivates domain-specialized teacher models via single-reward GRPO fine-tuning, allowing each expert to reach its performance ceiling in isolation; it then establishes a robust initial policy through a Flow-based Cold-Start scheme and seamlessly consolidates heterogeneous expertise into a single student via a three-step orchestration of on-policy sampling, task-routing labeling, and dense trajectory-level supervision. We further introduce Manifold Anchor Regularization (MAR), which leverages a task-agnostic teacher to provide full-data supervision that anchors generation to a high-quality manifold, effectively mitigating the aesthetic degradation commonly observed in purely RL-driven alignment. Built upon Stable Diffusion 3.5 Medium, Flow-OPD raises the GenEval score from 63 to 92 and the OCR accuracy from 59 to 94, yielding an overall improvement of roughly 10 points over vanilla GRPO, while preserving image fidelity and human-preference alignment and exhibiting an emergent 'teacher-surpassing' effect. These results establish Flow-OPD as a scalable alignment paradigm for building generalist text-to-image models.

Flow-OPD: Destilación en Política para Modelos de Emparejamiento de Flujo

Flow-OPD: On-Policy Distillation for Flow Matching Models

Resumen

Support