Distillare Diversità e Controllo nei Modelli di Diffusione
Distilling Diversity and Control in Diffusion Models
March 13, 2025
Autori: Rohit Gandikota, David Bau
cs.AI
Abstract
I modelli di diffusione distillati soffrono di una limitazione critica: una ridotta diversità dei campioni rispetto alle loro controparti di base. In questo lavoro, scopriamo che nonostante questa perdita di diversità, i modelli distillati conservano le rappresentazioni concettuali fondamentali dei modelli di base. Dimostriamo il controllo della distillazione - dove meccanismi di controllo come Concept Sliders e LoRA addestrati su modelli di base possono essere trasferiti senza soluzione di continuità ai modelli distillati e viceversa, distillando efficacemente il controllo senza alcun riaddestramento. Questa preservazione della struttura rappresentativa ha stimolato la nostra indagine sui meccanismi del collasso della diversità durante la distillazione. Per comprendere come la distillazione influisca sulla diversità, introduciamo la Visualizzazione del Target di Diffusione (DT), uno strumento di analisi e debug che rivela come i modelli prevedono gli output finali in passaggi intermedi. Attraverso la DT-Visualization, identifichiamo artefatti di generazione, incongruenze e dimostriamo che i primi passaggi temporali della diffusione determinano in modo sproporzionato la diversità dell'output, mentre i passaggi successivi perfezionano principalmente i dettagli. Sulla base di queste intuizioni, introduciamo la distillazione della diversità - un approccio ibrido di inferenza che impiega strategicamente il modello di base solo per il primo passaggio temporale critico prima di passare al modello distillato efficiente. I nostri esperimenti dimostrano che questa semplice modifica non solo ripristina le capacità di diversità dai modelli di base a quelli distillati, ma sorprendentemente le supera, mantenendo quasi l'efficienza computazionale dell'inferenza distillata, tutto senza richiedere ulteriori addestramenti o modifiche del modello. Il nostro codice e i dati sono disponibili all'indirizzo https://distillation.baulab.info.
English
Distilled diffusion models suffer from a critical limitation: reduced sample
diversity compared to their base counterparts. In this work, we uncover that
despite this diversity loss, distilled models retain the fundamental concept
representations of base models. We demonstrate control distillation - where
control mechanisms like Concept Sliders and LoRAs trained on base models can be
seamlessly transferred to distilled models and vice-versa, effectively
distilling control without any retraining. This preservation of
representational structure prompted our investigation into the mechanisms of
diversity collapse during distillation. To understand how distillation affects
diversity, we introduce Diffusion Target (DT) Visualization, an analysis and
debugging tool that reveals how models predict final outputs at intermediate
steps. Through DT-Visualization, we identify generation artifacts,
inconsistencies, and demonstrate that initial diffusion timesteps
disproportionately determine output diversity, while later steps primarily
refine details. Based on these insights, we introduce diversity distillation -
a hybrid inference approach that strategically employs the base model for only
the first critical timestep before transitioning to the efficient distilled
model. Our experiments demonstrate that this simple modification not only
restores the diversity capabilities from base to distilled models but
surprisingly exceeds it, while maintaining nearly the computational efficiency
of distilled inference, all without requiring additional training or model
modifications. Our code and data are available at
https://distillation.baulab.info