D-OPSD: On-Policy Zelfdistillatie voor het Continue Afstemmen van Stap-gedistilleerde Diffusiemodellen
D-OPSD: On-Policy Self-Distillation for Continuously Tuning Step-Distilled Diffusion Models
May 6, 2026
Auteurs: Dengyang Jiang, Xin Jin, Dongyang Liu, Zanyi Wang, Mingzhe Zheng, Ruoyi Du, Xiangpeng Yang, Qilong Wu, Zhen Li, Peng Gao, Harry Yang, Steven Hoi
cs.AI
Samenvatting
Het landschap van hoogwaardige beeldgeneratiemodellen verschuift momenteel van inefficiënte multi-step modellen naar efficiënte few-step tegenhangers (zoals Z-Image-Turbo en FLUX.2-klein). Deze modellen brengen echter aanzienlijke uitdagingen met zich mee voor directe continue supervised fine-tuning. Zo zou het toepassen van veelgebruikte fine-tuningtechnieken hun inherente few-step inferentievermogen aantasten. Om dit aan te pakken, stellen we D-OPSD voor, een nieuwe trainingsparadigma voor step-gedistilleerde diffusiemodellen dat on-policy learning mogelijk maakt tijdens supervised fine-tuning. We ontdekken eerst dat het moderne diffusiemodel, waarbij de LLM/VLM als encoder fungeert, de in-context mogelijkheden van zijn encoder kan overnemen. Dit stelt ons in staat om de training te vormen als een on-policy zelfdistillatieproces. Concreet laten we het model tijdens de training optreden als zowel leraar als leerling met verschillende contexten: de leerling wordt alleen geconditioneerd op de tekstfeature, terwijl de leraar wordt geconditioneerd op de multimodale feature van zowel de tekstprompt als de doelafbeelding. De training minimaliseert de twee voorspelde distributies over de eigen roll-outs van de leerling. Door optimalisatie op het eigen traject en onder eigen supervisie stelt D-OPSD het model in staat nieuwe concepten, stijlen, etc. aan te leren zonder het oorspronkelijke few-step vermogen op te offeren.
English
The landscape of high-performance image generation models is currently shifting from the inefficient multi-step ones to the efficient few-step counterparts (e.g, Z-Image-Turbo and FLUX.2-klein). However, these models present significant challenges for directly continuous supervised fine-tuning. For example, applying the commonly used fine-tuning technique would compromises their inherent few-step inference capability. To address this, we propose D-OPSD, a novel training paradigm for step-distilled diffusion models that enables on-policy learning during supervised fine-tuning. We first find that the modern diffusion model where the LLM/VLM serves as the encoder can inherit its encoder's in-context capabilities. This enables us to make the training as an on-policy self-distillation process. Specifically, during training, we make the model acts as both the teacher and the student with different contexts, where the student is conditioned only on the text feature, while the teacher is conditioned on the multimodal feature of both the text prompt and the target image. Training minimizes the two predicted distributions over the student's own roll-outs. By optimized on the model's own trajectory and under it's own supervision, D-OPSD enables the model to learn new concept, style, etc. without sacrificing the original few-step capacity.