ChatPaper.aiChatPaper

D-OPSD: 단계별 증류 확산 모델의 지속적 튜닝을 위한 온-정책 자기 증류

D-OPSD: On-Policy Self-Distillation for Continuously Tuning Step-Distilled Diffusion Models

May 6, 2026
저자: Dengyang Jiang, Xin Jin, Dongyang Liu, Zanyi Wang, Mingzhe Zheng, Ruoyi Du, Xiangpeng Yang, Qilong Wu, Zhen Li, Peng Gao, Harry Yang, Steven Hoi
cs.AI

초록

고성능 이미지 생성 모델의 경향은 비효율적인 다단계 모델에서 효율적인 소수 단계 모델(예: Z-Image-Turbo 및 FLUX.2-klein)로 전환되고 있습니다. 그러나 이러한 모델들은 직접적인 연속 지도 미세 조정에 상당한 어려움을 제시합니다. 예를 들어, 일반적으로 사용되는 미세 조정 기법을 적용하면 모델의 고유한 소수 단계 추론 능력이 훼손됩니다. 이를 해결하기 위해, 우리는 지도 미세 조정 과정에서 온-폴리시 학습을 가능하게 하는 단계 증류 확산 모델을 위한 새로운 훈련 패러다임인 D-OPSD를 제안합니다. 우리는 먼저 LLM/VLM이 인코더 역할을 하는 현대적 확산 모델이 해당 인코더의 인-컨텍스트 능력을 상속받을 수 있음을 발견했습니다. 이는 훈련을 온-폴리시 자기 증류 과정으로 만들 수 있게 합니다. 구체적으로, 훈련 중에 모델이 서로 다른 컨텍스트를 가진 교사와 학생 역할을 동시에 수행하도록 합니다. 학생은 텍스트 특징만을 조건으로 하는 반면, 교사는 텍스트 프롬프트와 목표 이미지의 다중모달 특징을 조건으로 합니다. 훈련은 학생 자신의 롤아웃에 대한 두 예측 분포 간의 차이를 최소화합니다. 모델 자신의 궤적에서 그리고 모델 자신의 감독 하에 최적화됨으로써, D-OPSD는 모델이 원래의 소수 단계 능력을 희생하지 않고 새로운 개념, 스타일 등을 학습할 수 있게 합니다.
English
The landscape of high-performance image generation models is currently shifting from the inefficient multi-step ones to the efficient few-step counterparts (e.g, Z-Image-Turbo and FLUX.2-klein). However, these models present significant challenges for directly continuous supervised fine-tuning. For example, applying the commonly used fine-tuning technique would compromises their inherent few-step inference capability. To address this, we propose D-OPSD, a novel training paradigm for step-distilled diffusion models that enables on-policy learning during supervised fine-tuning. We first find that the modern diffusion model where the LLM/VLM serves as the encoder can inherit its encoder's in-context capabilities. This enables us to make the training as an on-policy self-distillation process. Specifically, during training, we make the model acts as both the teacher and the student with different contexts, where the student is conditioned only on the text feature, while the teacher is conditioned on the multimodal feature of both the text prompt and the target image. Training minimizes the two predicted distributions over the student's own roll-outs. By optimized on the model's own trajectory and under it's own supervision, D-OPSD enables the model to learn new concept, style, etc. without sacrificing the original few-step capacity.
PDF191May 8, 2026