DanceOPD: On-Policy generatieve velddistillatie

Samenvatting

Moderne beeldgeneratie vereist een enkel model dat diverse mogelijkheden verenigt, waaronder tekst-naar-beeld (T2I), lokale bewerking en globale bewerking. Deze mogelijkheden zijn echter zelden van nature op elkaar afgestemd en conflicteren vaak. Bewerking heeft bijvoorbeeld de neiging de T2I-prestaties te verminderen, terwijl globale en lokale bewerking elkaar verstoren. Bijgevolg is het effectief combineren van deze mogelijkheden een centrale uitdaging geworden voor de training van beeldgeneratiemodellen. Om dit aan te pakken introduceren we DanceOPD, een on-policy generatief velddestillatieframework voor stroommatchingmodellen dat elk monster naar één capaciteitsveld leidt, één laag-ruis student-geïnduceerde toestand opvraagt en traint met een eenvoudige snelheids-MSE-doelstelling. Met elke capaciteitsbron gedefinieerd als een snelheidsveld over de gedeelde stroomtoestandsruimte, leert de student van velden die zijn opgevraagd op zijn eigen uitroltoestanden om expertcapaciteiten samen te stellen. Deze formulering absorbeert ook operator-gedefinieerde velden zoals classifier-vrije begeleiding. Uitgebreide experimenten op T2I, bewerking, realisme-veldabsorptie en CFG-absorptie tonen aan dat onze aanpak de multi-capaciteitssamenstelling verbetert, doelcapaciteiten versterkt terwijl de anker-generatiekwaliteit behouden blijft. Wij geloven dat dit werk een praktische route vestigt voor generatieve velddestillatie in stroommatchingmodellen.

English

Modern image generation demands a single model that unifies diverse capabilities, including text-to-image (T2I), local editing, and global editing. However, these capabilities are rarely naturally aligned and often conflict. For instance, editing tends to degrade T2I performance, while global and local editing interfere with each other. Consequently, effectively composing these capabilities has become a central challenge for image generation model training. To tackle this, we introduce DanceOPD, an on-policy generative field distillation framework for flow-matching models that routes each sample to one capability field, queries one low-noise student-induced state, and trains with a simple velocity MSE objective. With each capability source defined as a velocity field over the shared flow state space, the student learns from fields queried on its own rollout states to compose expert capabilities. This formulation also absorbs operator-defined fields such as classifier-free guidance. Comprehensive experiments on T2I, editing, realism-field absorption, and CFG absorption show that our approach improves multi-capability composition, strengthening target capabilities while preserving anchor generation quality. We believe this work establishes a practical route for generative field distillation in flow-matching models.