D-OPSD : Auto-distillation en-ligne pour l'ajustement continu des modèles de diffusion distillé par étapes
D-OPSD: On-Policy Self-Distillation for Continuously Tuning Step-Distilled Diffusion Models
May 6, 2026
Auteurs: Dengyang Jiang, Xin Jin, Dongyang Liu, Zanyi Wang, Mingzhe Zheng, Ruoyi Du, Xiangpeng Yang, Qilong Wu, Zhen Li, Peng Gao, Harry Yang, Steven Hoi
cs.AI
Résumé
Le paysage des modèles de génération d'images haute performance est en train d'évoluer des modèles multi-étapes inefficaces vers leurs homologues peu-étapes plus efficaces (par exemple, Z-Image-Turbo et FLUX.2-klein). Cependant, ces modèles présentent des défis significatifs pour un réglage fin supervisé directement continu. Par exemple, l'application de la technique de réglage fin couramment utilisée compromet leur capacité d'inférence peu-étapes inhérente. Pour résoudre ce problème, nous proposons D-OPSD, un nouveau paradigme d'entraînement pour les modèles de diffusion avec distillation d'étapes qui permet un apprentissage sur la politique pendant le réglage fin supervisé. Nous constatons d'abord que le modèle de diffusion moderne, où le LLM/VLM sert d'encodeur, peut hériter des capacités en contexte de son encodeur. Cela nous permet de transformer l'entraînement en un processus d'auto-distillation sur la politique. Concrètement, pendant l'entraînement, le modèle agit à la fois comme enseignant et étudiant avec des contextes différents : l'étudiant est conditionné uniquement sur les caractéristiques textuelles, tandis que l'enseignant est conditionné sur les caractéristiques multimodales de l'invite texte et de l'image cible. L'entraînement minimise les deux distributions prédites sur les propres déploiements de l'étudiant. En étant optimisé sur sa propre trajectoire et sous sa propre supervision, D-OPSD permet au modèle d'apprendre de nouveaux concepts, styles, etc. sans sacrifier la capacité peu-étapes d'origine.
English
The landscape of high-performance image generation models is currently shifting from the inefficient multi-step ones to the efficient few-step counterparts (e.g, Z-Image-Turbo and FLUX.2-klein). However, these models present significant challenges for directly continuous supervised fine-tuning. For example, applying the commonly used fine-tuning technique would compromises their inherent few-step inference capability. To address this, we propose D-OPSD, a novel training paradigm for step-distilled diffusion models that enables on-policy learning during supervised fine-tuning. We first find that the modern diffusion model where the LLM/VLM serves as the encoder can inherit its encoder's in-context capabilities. This enables us to make the training as an on-policy self-distillation process. Specifically, during training, we make the model acts as both the teacher and the student with different contexts, where the student is conditioned only on the text feature, while the teacher is conditioned on the multimodal feature of both the text prompt and the target image. Training minimizes the two predicted distributions over the student's own roll-outs. By optimized on the model's own trajectory and under it's own supervision, D-OPSD enables the model to learn new concept, style, etc. without sacrificing the original few-step capacity.