확산 모델에서 다양성과 제어의 정제
Distilling Diversity and Control in Diffusion Models
March 13, 2025
저자: Rohit Gandikota, David Bau
cs.AI
초록
증류된 확산 모델은 기본 모델에 비해 샘플 다양성이 감소한다는 중요한 한계를 가지고 있습니다. 본 연구에서는 이러한 다양성 손실에도 불구하고, 증류된 모델이 기본 모델의 근본적인 개념 표현을 유지한다는 사실을 발견했습니다. 우리는 컨트롤 증류를 입증합니다. 여기서는 기본 모델에서 학습된 Concept Sliders와 LoRA와 같은 컨트롤 메커니즘이 추가적인 재학습 없이도 증류된 모델로 원활하게 전이될 수 있으며, 그 반대의 경우도 마찬가지임을 보여줍니다. 이는 컨트롤을 효과적으로 증류할 수 있음을 의미합니다. 이러한 표현 구조의 보존은 증류 과정 중 다양성 붕괴의 메커니즘을 조사하도록 우리를 이끌었습니다. 증류가 다양성에 미치는 영향을 이해하기 위해, 우리는 Diffusion Target (DT) Visualization이라는 분석 및 디버깅 도구를 도입했습니다. 이 도구는 모델이 중간 단계에서 최종 출력을 어떻게 예측하는지를 보여줍니다. DT-Visualization을 통해 우리는 생성 아티팩트와 불일치를 식별하고, 초기 확산 타임스텝이 출력 다양성을 불균형적으로 결정하는 반면, 후속 단계는 주로 세부 사항을 정제한다는 것을 입증했습니다. 이러한 통찰을 바탕으로, 우리는 다양성 증류를 소개합니다. 이는 효율적인 증류 모델로 전환하기 전에 첫 번째 중요한 타임스텝에만 기본 모델을 전략적으로 사용하는 하이브리드 추론 접근법입니다. 우리의 실험은 이 간단한 수정이 기본 모델의 다양성 능력을 증류된 모델로 복원할 뿐만 아니라, 놀랍게도 이를 초과하는 동시에 증류된 추론의 계산 효율성을 거의 유지할 수 있음을 보여줍니다. 이 모든 것은 추가적인 학습이나 모델 수정 없이 이루어집니다. 우리의 코드와 데이터는 https://distillation.baulab.info에서 확인할 수 있습니다.
English
Distilled diffusion models suffer from a critical limitation: reduced sample
diversity compared to their base counterparts. In this work, we uncover that
despite this diversity loss, distilled models retain the fundamental concept
representations of base models. We demonstrate control distillation - where
control mechanisms like Concept Sliders and LoRAs trained on base models can be
seamlessly transferred to distilled models and vice-versa, effectively
distilling control without any retraining. This preservation of
representational structure prompted our investigation into the mechanisms of
diversity collapse during distillation. To understand how distillation affects
diversity, we introduce Diffusion Target (DT) Visualization, an analysis and
debugging tool that reveals how models predict final outputs at intermediate
steps. Through DT-Visualization, we identify generation artifacts,
inconsistencies, and demonstrate that initial diffusion timesteps
disproportionately determine output diversity, while later steps primarily
refine details. Based on these insights, we introduce diversity distillation -
a hybrid inference approach that strategically employs the base model for only
the first critical timestep before transitioning to the efficient distilled
model. Our experiments demonstrate that this simple modification not only
restores the diversity capabilities from base to distilled models but
surprisingly exceeds it, while maintaining nearly the computational efficiency
of distilled inference, all without requiring additional training or model
modifications. Our code and data are available at
https://distillation.baulab.infoSummary
AI-Generated Summary