Distilação por Correspondência de Distribuição com Preservação da Diversidade para Síntese Visual Rápida
Diversity-Preserved Distribution Matching Distillation for Fast Visual Synthesis
February 3, 2026
Autores: Tianhe Wu, Ruibin Li, Lei Zhang, Kede Ma
cs.AI
Resumo
A destilação por correspondência de distribuição (DMD) alinha um gerador de múltiplos passos com a sua contraparte de poucos passos para permitir uma geração de alta qualidade com baixo custo de inferência. No entanto, a DMD tende a sofrer de colapso modal, uma vez que a sua formulação de KL reverso incentiva inerentemente um comportamento de busca por modos, para o qual os remédios existentes normalmente dependem de regularização perceptual ou adversarial, incorrendo assim em sobrecarga computacional substancial e instabilidade no treinamento. Neste trabalho, propomos uma estrutura de destilação com papéis separados que desembaraça explicitamente as funções dos passos destilados: o primeiro passo é dedicado a preservar a diversidade de amostras através de um objetivo de predição de destino (por exemplo, predição-v), enquanto os passos subsequentes se concentram no refinamento da qualidade sob a perda padrão da DMD, com os gradientes do objetivo DMD bloqueados no primeiro passo. Denominamos esta abordagem de DMD com Diversidade Preservada (DP-DMD), que, apesar da sua simplicidade — sem rede perceptual, sem discriminador, sem redes auxiliares e sem imagens de referência adicionais — preserva a diversidade de amostras, mantendo uma qualidade visual comparável aos métodos de última geração em extensos experimentos de texto para imagem.
English
Distribution matching distillation (DMD) aligns a multi-step generator with its few-step counterpart to enable high-quality generation under low inference cost. However, DMD tends to suffer from mode collapse, as its reverse-KL formulation inherently encourages mode-seeking behavior, for which existing remedies typically rely on perceptual or adversarial regularization, thereby incurring substantial computational overhead and training instability. In this work, we propose a role-separated distillation framework that explicitly disentangles the roles of distilled steps: the first step is dedicated to preserving sample diversity via a target-prediction (e.g., v-prediction) objective, while subsequent steps focus on quality refinement under the standard DMD loss, with gradients from the DMD objective blocked at the first step. We term this approach Diversity-Preserved DMD (DP-DMD), which, despite its simplicity -- no perceptual backbone, no discriminator, no auxiliary networks, and no additional ground-truth images -- preserves sample diversity while maintaining visual quality on par with state-of-the-art methods in extensive text-to-image experiments.