D-OPSD: Auto-Destilación en Política para el Ajuste Continuo de Modelos de Difusión Destilados por Pasos

Resumen

El panorama de los modelos de generación de imágenes de alto rendimiento está experimentando una transición desde los ineficientes modelos multi-paso hacia sus contrapartes eficientes de pocos pasos (por ejemplo, Z-Image-Turbo y FLUX.2-klein). Sin embargo, estos modelos presentan desafíos significativos para el ajuste fino supervisado directamente continuo. Por ejemplo, aplicar la técnica de ajuste fino comúnmente utilizada comprometería su capacidad inherente de inferencia en pocos pasos. Para abordar esto, proponemos D-OPSD, un nuevo paradigma de entrenamiento para modelos de difusión destilados en pasos que permite el aprendizaje *on-policy* durante el ajuste fino supervisado. Primero descubrimos que el modelo de difusión moderno, donde un LLM/VLM actúa como codificador, puede heredar las capacidades *in-context* de su codificador. Esto nos permite convertir el entrenamiento en un proceso de auto-destilación *on-policy*. Específicamente, durante el entrenamiento, hacemos que el modelo actúe tanto como profesor como estudiante con diferentes contextos: el estudiante se condiciona únicamente en la característica de texto, mientras que el profesor se condiciona en la característica multimodal tanto de la instrucción de texto como de la imagen objetivo. El entrenamiento minimiza las dos distribuciones predichas sobre las propias trayectorias (*roll-outs*) del estudiante. Al ser optimizado sobre la trayectoria propia y bajo su propia supervisión, D-OPSD permite al modelo aprender nuevos conceptos, estilos, etc., sin sacrificar la capacidad original de pocos pasos.

English

The landscape of high-performance image generation models is currently shifting from the inefficient multi-step ones to the efficient few-step counterparts (e.g, Z-Image-Turbo and FLUX.2-klein). However, these models present significant challenges for directly continuous supervised fine-tuning. For example, applying the commonly used fine-tuning technique would compromises their inherent few-step inference capability. To address this, we propose D-OPSD, a novel training paradigm for step-distilled diffusion models that enables on-policy learning during supervised fine-tuning. We first find that the modern diffusion model where the LLM/VLM serves as the encoder can inherit its encoder's in-context capabilities. This enables us to make the training as an on-policy self-distillation process. Specifically, during training, we make the model acts as both the teacher and the student with different contexts, where the student is conditioned only on the text feature, while the teacher is conditioned on the multimodal feature of both the text prompt and the target image. Training minimizes the two predicted distributions over the student's own roll-outs. By optimized on the model's own trajectory and under it's own supervision, D-OPSD enables the model to learn new concept, style, etc. without sacrificing the original few-step capacity.

D-OPSD: Auto-Destilación en Política para el Ajuste Continuo de Modelos de Difusión Destilados por Pasos

D-OPSD: On-Policy Self-Distillation for Continuously Tuning Step-Distilled Diffusion Models

Resumen

Support