ChatPaper.aiChatPaper

Distillation por Correspondencia de Distribución con Preservación de la Diversidad para Síntesis Visual Rápida

Diversity-Preserved Distribution Matching Distillation for Fast Visual Synthesis

February 3, 2026
Autores: Tianhe Wu, Ruibin Li, Lei Zhang, Kede Ma
cs.AI

Resumen

La destilación por coincidencia de distribución (DMD) alinea un generador de múltiples pasos con su contraparte de pocos pasos para permitir una generación de alta calidad con bajo costo de inferencia. Sin embargo, la DMD tiende a sufrir de colapso modal, ya que su formulación de KL inverso fomenta inherentemente un comportamiento de búsqueda de modos, para lo cual los remedios existentes suelen depender de regularización perceptiva o adversarial, incurriendo así en una sobrecarga computacional sustancial e inestabilidad en el entrenamiento. En este trabajo, proponemos un marco de destilación con roles separados que desentrama explícitamente las funciones de los pasos destilados: el primer paso se dedica a preservar la diversidad de muestras mediante un objetivo de predicción de destino (por ejemplo, predicción-v), mientras que los pasos subsiguientes se centran en el refinamiento de la calidad bajo la pérdida DMD estándar, bloqueando los gradientes del objetivo DMD en el primer paso. Denominamos a este enfoque DMD con Diversidad Preservada (DP-DMD), el cual, a pesar de su simplicidad —sin red perceptiva principal, sin discriminador, sin redes auxiliares y sin imágenes de referencia adicionales— preserva la diversidad de muestras mientras mantiene una calidad visual a la par de los métodos más avanzados en extensos experimentos de texto a imagen.
English
Distribution matching distillation (DMD) aligns a multi-step generator with its few-step counterpart to enable high-quality generation under low inference cost. However, DMD tends to suffer from mode collapse, as its reverse-KL formulation inherently encourages mode-seeking behavior, for which existing remedies typically rely on perceptual or adversarial regularization, thereby incurring substantial computational overhead and training instability. In this work, we propose a role-separated distillation framework that explicitly disentangles the roles of distilled steps: the first step is dedicated to preserving sample diversity via a target-prediction (e.g., v-prediction) objective, while subsequent steps focus on quality refinement under the standard DMD loss, with gradients from the DMD objective blocked at the first step. We term this approach Diversity-Preserved DMD (DP-DMD), which, despite its simplicity -- no perceptual backbone, no discriminator, no auxiliary networks, and no additional ground-truth images -- preserves sample diversity while maintaining visual quality on par with state-of-the-art methods in extensive text-to-image experiments.
PDF312February 5, 2026