TurboEdit: 소수 단계 확산 모델을 활용한 텍스트 기반 이미지 편집
TurboEdit: Text-Based Image Editing Using Few-Step Diffusion Models
August 1, 2024
저자: Gilad Deutch, Rinon Gal, Daniel Garibi, Or Patashnik, Daniel Cohen-Or
cs.AI
초록
확산 모델(Diffusion models)은 텍스트 기반 이미지 편집 프레임워크의 광범위한 길을 열어주었습니다. 그러나 이러한 프레임워크들은 일반적으로 확산 역과정의 다단계적 특성에 기반을 두고 있어, 이를 간소화된 고속 샘플링 방법에 적용하는 것은 놀랍도록 어려운 과제로 드러났습니다. 본 연구에서는 텍스트 기반 편집 프레임워크 중에서도 특히 인기 있는 '편집 친화적(edit-friendly)' DDPM 노이즈 역변환 접근법에 초점을 맞춥니다. 우리는 이 접근법을 고속 샘플링 방법에 적용할 때 발생하는 문제를 분석하고, 그 실패 원인을 시각적 아티팩트의 출현과 편집 강도의 부족이라는 두 가지 범주로 분류합니다. 아티팩트는 역변환된 노이즈와 기대되는 노이즈 스케줄 간의 불일치에서 비롯됨을 추적하고, 이 오프셋을 교정하기 위해 조정된 노이즈 스케줄을 제안합니다. 또한 편집 강도를 높이기 위해, 새로운 아티팩트를 도입하지 않으면서도 편집의 크기를 효율적으로 증가시키는 가이던스 기법(pseudo-guidance approach)을 제안합니다. 종합적으로, 우리의 방법은 단 세 번의 확산 단계만으로도 텍스트 기반 이미지 편집을 가능하게 하며, 널리 사용되는 텍스트 기반 편집 접근법의 메커니즘에 대한 새로운 통찰을 제공합니다.
English
Diffusion models have opened the path to a wide range of text-based image
editing frameworks. However, these typically build on the multi-step nature of
the diffusion backwards process, and adapting them to distilled, fast-sampling
methods has proven surprisingly challenging. Here, we focus on a popular line
of text-based editing frameworks - the ``edit-friendly'' DDPM-noise inversion
approach. We analyze its application to fast sampling methods and categorize
its failures into two classes: the appearance of visual artifacts, and
insufficient editing strength. We trace the artifacts to mismatched noise
statistics between inverted noises and the expected noise schedule, and suggest
a shifted noise schedule which corrects for this offset. To increase editing
strength, we propose a pseudo-guidance approach that efficiently increases the
magnitude of edits without introducing new artifacts. All in all, our method
enables text-based image editing with as few as three diffusion steps, while
providing novel insights into the mechanisms behind popular text-based editing
approaches.Summary
AI-Generated Summary