당신의 학생은 예상보다 뛰어납니다: 텍스트 조건부 확산 모델을 위한 적응형 교사-학생 협업
Your Student is Better Than Expected: Adaptive Teacher-Student Collaboration for Text-Conditional Diffusion Models
December 17, 2023
저자: Nikita Starodubcev, Artem Fedorov, Artem Babenko, Dmitry Baranchuk
cs.AI
초록
지식 증류(Knowledge distillation) 방법은 최근 대규모 확산 모델의 합성 속도를 높이는 유망한 방향으로 주목받고 있으며, 이를 위해 단 몇 번의 추론 단계만 필요로 한다. 여러 강력한 증류 방법이 최근 제안되었지만, 학생 모델이 생성한 샘플의 전반적인 품질은 일반적으로 교사 모델에 비해 낮아 실용적인 사용에 제약이 따른다. 본 연구에서는 교사 텍스트-이미지 확산 모델과 그 증류된 학생 버전이 생성한 샘플의 상대적 품질을 조사한다. 주요 실험 결과로서, 학생 모델이 생성한 샘플 중 상당 부분이 교사 모델의 샘플보다 더 우수한 충실도를 보이는 현상을 발견하였다. 이러한 발견을 바탕으로, 효과적인 텍스트-이미지 합성을 위해 학생과 교사 확산 모델 간의 적응적 협업을 제안한다. 구체적으로, 증류된 모델이 초기 샘플을 생성한 후, 오라클이 느린 교사 모델을 통해 추가 개선이 필요한지 여부를 결정한다. 광범위한 실험을 통해 설계된 파이프라인이 다양한 추론 예산에서 인간 선호도 측면에서 최신 텍스트-이미지 대안을 능가함을 입증하였다. 또한, 제안된 접근법은 텍스트 기반 이미지 편집 및 제어 가능한 생성과 같은 인기 있는 응용 프로그램에 자연스럽게 활용될 수 있다.
English
Knowledge distillation methods have recently shown to be a promising
direction to speedup the synthesis of large-scale diffusion models by requiring
only a few inference steps. While several powerful distillation methods were
recently proposed, the overall quality of student samples is typically lower
compared to the teacher ones, which hinders their practical usage. In this
work, we investigate the relative quality of samples produced by the teacher
text-to-image diffusion model and its distilled student version. As our main
empirical finding, we discover that a noticeable portion of student samples
exhibit superior fidelity compared to the teacher ones, despite the
``approximate'' nature of the student. Based on this finding, we propose an
adaptive collaboration between student and teacher diffusion models for
effective text-to-image synthesis. Specifically, the distilled model produces
the initial sample, and then an oracle decides whether it needs further
improvements with a slow teacher model. Extensive experiments demonstrate that
the designed pipeline surpasses state-of-the-art text-to-image alternatives for
various inference budgets in terms of human preference. Furthermore, the
proposed approach can be naturally used in popular applications such as
text-guided image editing and controllable generation.