D-OPSD:ステップ蒸留拡散モデルの連続的チューニングのためのオン方策自己蒸留
D-OPSD: On-Policy Self-Distillation for Continuously Tuning Step-Distilled Diffusion Models
May 6, 2026
著者: Dengyang Jiang, Xin Jin, Dongyang Liu, Zanyi Wang, Mingzhe Zheng, Ruoyi Du, Xiangpeng Yang, Qilong Wu, Zhen Li, Peng Gao, Harry Yang, Steven Hoi
cs.AI
要旨
高性能画像生成モデルの状況は現在、非効率な多段階モデルから効率的な少数段階モデル(例:Z-Image-TurboやFLUX.2-klein)へと移行しつつある。しかし、これらのモデルは直接的な連続的教師ありファインチューニングに重大な課題を提示している。例えば、一般的に使用されるファインチューニング技術を適用すると、モデルが本来備える少数段階推論能力が損なわれてしまう。この問題に対処するため、我々はステップ蒸留拡散モデル向けの新しい訓練パラダイムであるD-OPSDを提案する。これは教師ありファインチューニング中に方策オン学習を可能にするものである。
我々はまず、LLM/VLMをエンコーダーとして採用する現代の拡散モデルが、そのエンコーダーの文脈内学習能力を継承できることを発見した。これにより、訓練を方策オン自己蒸留プロセスとして構築することが可能となる。具体的には、訓練中にモデルを異なる文脈で教師と生徒の両方の役割を担わせる。生徒はテキスト特徴量のみで条件付けられ、教師はテキストプロンプトと目標画像の両方からなるマルチモーダル特徴量で条件付けられる。訓練では、生徒自身のロールアウトに基づく2つの予測分布間の差を最小化する。
自身の軌跡上で最適化され、自身の監督下で学習を行うことで、D-OPSDはモデルが本来の少数段階能力を損なうことなく、新しい概念やスタイルなどを学習することを可能にする。
English
The landscape of high-performance image generation models is currently shifting from the inefficient multi-step ones to the efficient few-step counterparts (e.g, Z-Image-Turbo and FLUX.2-klein). However, these models present significant challenges for directly continuous supervised fine-tuning. For example, applying the commonly used fine-tuning technique would compromises their inherent few-step inference capability. To address this, we propose D-OPSD, a novel training paradigm for step-distilled diffusion models that enables on-policy learning during supervised fine-tuning. We first find that the modern diffusion model where the LLM/VLM serves as the encoder can inherit its encoder's in-context capabilities. This enables us to make the training as an on-policy self-distillation process. Specifically, during training, we make the model acts as both the teacher and the student with different contexts, where the student is conditioned only on the text feature, while the teacher is conditioned on the multimodal feature of both the text prompt and the target image. Training minimizes the two predicted distributions over the student's own roll-outs. By optimized on the model's own trajectory and under it's own supervision, D-OPSD enables the model to learn new concept, style, etc. without sacrificing the original few-step capacity.