ChatPaper.aiChatPaper

D-OPSD: Онлайн-самодистилляция для непрерывной тонкой настройки пошагово дистиллированных диффузионных моделей

D-OPSD: On-Policy Self-Distillation for Continuously Tuning Step-Distilled Diffusion Models

May 6, 2026
Авторы: Dengyang Jiang, Xin Jin, Dongyang Liu, Zanyi Wang, Mingzhe Zheng, Ruoyi Du, Xiangpeng Yang, Qilong Wu, Zhen Li, Peng Gao, Harry Yang, Steven Hoi
cs.AI

Аннотация

Ландшафт моделей для генерации изображений высокого качества в настоящее время смещается от неэффективных многошаговых подходов к эффективным малошаговым аналогам (например, Z-Image-Turbo и FLUX.2-klein). Однако эти модели представляют значительные трудности для непосредственного непрерывного обучения с учителем. Например, применение широко используемой техники тонкой настройки может нарушить их присущую малошаговую способность к выводу. Для решения этой проблемы мы предлагаем D-OPSD — новую парадигму обучения для диффузионных моделей с дистилляцией шагов, которая позволяет осуществлять обучение по стратегии (on-policy) в процессе обучения с учителем. Мы сначала обнаружили, что современная диффузионная модель, в которой крупный языковой модель/визуально-языковая модель (LLM/VLM) выступает в роли энкодера, может наследовать контекстные способности своего энкодера. Это позволяет нам превратить обучение в процесс само-дистилляции по стратегии. Конкретно, в процессе обучения модель выступает одновременно в роли учителя и ученика с разными контекстами: ученикconditioned только на текстовых признаках, тогда как учительconditioned на мультимодальных признаках как текстового промпта, так и целевого изображения. Обучение минимизирует расхождение между двумя предсказанными распределениями на основе собственных "прогонов" (roll-outs) ученика. Оптимизируясь на собственной траектории модели и под ее собственным контролем, D-OPSD позволяет модели изучать новые концепции, стили и т.д. без ущерба для исходной малошаговой способности.
English
The landscape of high-performance image generation models is currently shifting from the inefficient multi-step ones to the efficient few-step counterparts (e.g, Z-Image-Turbo and FLUX.2-klein). However, these models present significant challenges for directly continuous supervised fine-tuning. For example, applying the commonly used fine-tuning technique would compromises their inherent few-step inference capability. To address this, we propose D-OPSD, a novel training paradigm for step-distilled diffusion models that enables on-policy learning during supervised fine-tuning. We first find that the modern diffusion model where the LLM/VLM serves as the encoder can inherit its encoder's in-context capabilities. This enables us to make the training as an on-policy self-distillation process. Specifically, during training, we make the model acts as both the teacher and the student with different contexts, where the student is conditioned only on the text feature, while the teacher is conditioned on the multimodal feature of both the text prompt and the target image. Training minimizes the two predicted distributions over the student's own roll-outs. By optimized on the model's own trajectory and under it's own supervision, D-OPSD enables the model to learn new concept, style, etc. without sacrificing the original few-step capacity.
PDF191May 8, 2026