DanceOPD: Дистилляция генеративного поля на основе текущей политики

Аннотация

Современная генерация изображений требует единой модели, объединяющей разнообразные возможности, включая текст-в-изображение (T2I), локальное и глобальное редактирование. Однако эти способности редко бывают естественно согласованы и часто конфликтуют. Например, редактирование, как правило, ухудшает производительность T2I, а глобальное и локальное редактирование мешают друг другу. В результате эффективная компоновка этих возможностей становится центральной проблемой обучения моделей генерации изображений. Для решения этой задачи мы представляем DanceOPD — фреймворк дистилляции генеративного поля по политике (on-policy) для моделей согласования потоков (flow-matching), который направляет каждый образец в одно поле возможностей, запрашивает одно состояние, индуцированное студентом с малым уровнем шума, и обучается с помощью простой целевой функции средней квадратичной ошибки скорости (velocity MSE). При определении каждого источника возможностей как поля скоростей в общем пространстве состояний потока студент обучается на полях, запрашиваемых на его собственных состояниях развертывания, чтобы компоновать экспертные возможности. Такая формулировка также поглощает операторно-определенные поля, такие как бесклассификаторное управление (CFG). Всесторонние эксперименты на T2I, редактировании, поглощении поля реалистичности и поглощении CFG показывают, что наш подход улучшает многозадачную композицию, усиливая целевые возможности при сохранении качества эталонной генерации. Мы полагаем, что эта работа устанавливает практический путь для дистилляции генеративного поля в моделях согласования потоков.

English

Modern image generation demands a single model that unifies diverse capabilities, including text-to-image (T2I), local editing, and global editing. However, these capabilities are rarely naturally aligned and often conflict. For instance, editing tends to degrade T2I performance, while global and local editing interfere with each other. Consequently, effectively composing these capabilities has become a central challenge for image generation model training. To tackle this, we introduce DanceOPD, an on-policy generative field distillation framework for flow-matching models that routes each sample to one capability field, queries one low-noise student-induced state, and trains with a simple velocity MSE objective. With each capability source defined as a velocity field over the shared flow state space, the student learns from fields queried on its own rollout states to compose expert capabilities. This formulation also absorbs operator-defined fields such as classifier-free guidance. Comprehensive experiments on T2I, editing, realism-field absorption, and CFG absorption show that our approach improves multi-capability composition, strengthening target capabilities while preserving anchor generation quality. We believe this work establishes a practical route for generative field distillation in flow-matching models.