ChatPaper.aiChatPaper

약 7단계 내 텍스트 기반 이미지 편집을 위한 가역적 일관성 증류

Invertible Consistency Distillation for Text-Guided Image Editing in Around 7 Steps

June 20, 2024
저자: Nikita Starodubcev, Mikhail Khoroshikh, Artem Babenko, Dmitry Baranchuk
cs.AI

초록

확산 증류(Diffusion distillation)는 적은 샘플링 단계로도 충실한 텍스트-이미지 생성을 달성하기 위한 매우 유망한 방향성을 제시합니다. 그러나 최근의 성공에도 불구하고, 기존의 증류된 모델들은 여전히 실제 이미지 역변환(real image inversion)과 같은 확산 모델의 전체 능력 스펙트럼을 제공하지 못하고 있으며, 이는 다양한 정밀한 이미지 조작 방법을 가능하게 합니다. 본 연구는 증류된 텍스트-이미지 확산 모델에 실제 이미지를 효과적으로 잠재 공간(latent space)으로 인코딩할 수 있는 능력을 부여하는 것을 목표로 합니다. 이를 위해, 우리는 가역적 일관성 증류(invertible Consistency Distillation, iCD)를 소개합니다. 이는 단 3-4번의 추론 단계만으로도 고품질 이미지 합성과 정확한 이미지 인코딩을 모두 가능하게 하는 일반화된 일관성 증류 프레임워크입니다. 텍스트-이미지 확산 모델의 역변환 문제는 높은 classifier-free guidance scale에서 더욱 악화되지만, 우리는 동적 가이던스(dynamic guidance)가 생성 성능의 눈에 띄는 저하 없이 재구성 오류를 크게 줄인다는 사실을 발견했습니다. 결과적으로, 동적 가이던스를 장착한 iCD는 더 비싼 최첨단 대안들과 경쟁할 수 있는 제로샷 텍스트 기반 이미지 편집을 위한 매우 효과적인 도구로 활용될 수 있음을 입증합니다.
English
Diffusion distillation represents a highly promising direction for achieving faithful text-to-image generation in a few sampling steps. However, despite recent successes, existing distilled models still do not provide the full spectrum of diffusion abilities, such as real image inversion, which enables many precise image manipulation methods. This work aims to enrich distilled text-to-image diffusion models with the ability to effectively encode real images into their latent space. To this end, we introduce invertible Consistency Distillation (iCD), a generalized consistency distillation framework that facilitates both high-quality image synthesis and accurate image encoding in only 3-4 inference steps. Though the inversion problem for text-to-image diffusion models gets exacerbated by high classifier-free guidance scales, we notice that dynamic guidance significantly reduces reconstruction errors without noticeable degradation in generation performance. As a result, we demonstrate that iCD equipped with dynamic guidance may serve as a highly effective tool for zero-shot text-guided image editing, competing with more expensive state-of-the-art alternatives.

Summary

AI-Generated Summary

PDF281December 2, 2024