ChatPaper.aiChatPaper

터보에딧: 즉각적인 텍스트 기반 이미지 편집

TurboEdit: Instant text-based image editing

August 14, 2024
저자: Zongze Wu, Nicholas Kolkin, Jonathan Brandt, Richard Zhang, Eli Shechtman
cs.AI

초록

우리는 몇 단계 확산 모델의 맥락에서 정확한 이미지 역전 및 이분화된 이미지 편집의 도전에 대처합니다. 우리는 입력 이미지와 이전 단계에서 재구성된 이미지에 의존하는 인코더 기반의 반복적 역전 기술을 소개합니다. 역전 네트워크는 다음 재구성을 입력 이미지 방향으로 보정할 수 있도록 조건이 설정됩니다. 우리는 (자동 생성된) 상세한 텍스트 프롬프트에 의존함으로써 몇 단계 확산 모델에서 이분화된 제어가 쉽게 달성될 수 있음을 보여줍니다. 역전된 이미지를 조작하기 위해 우리는 노이즈 맵을 고정시키고 텍스트 프롬프트에서 한 속성을 수정합니다 (수동으로 또는 LLM에 의해 주도되는 명령 기반 편집을 통해), 결과적으로 입력 이미지와 유사한 새 이미지를 생성하면서 한 가지 속성만 변경됩니다. 또한 편집 강도를 제어하고 지시적인 텍스트 프롬프트를 수용할 수 있습니다. 우리의 접근 방식은 실시간으로 현실적인 텍스트 안내 이미지 편집을 용이하게 하며, 역전에는 8회의 기능 평가 (NFEs)만 필요하며 편집 당 4회의 NFEs가 필요합니다. 우리의 방법은 빠를 뿐만 아니라 최첨단 다단계 확산 편집 기술을 현저하게 능가합니다.
English
We address the challenges of precise image inversion and disentangled image editing in the context of few-step diffusion models. We introduce an encoder based iterative inversion technique. The inversion network is conditioned on the input image and the reconstructed image from the previous step, allowing for correction of the next reconstruction towards the input image. We demonstrate that disentangled controls can be easily achieved in the few-step diffusion model by conditioning on an (automatically generated) detailed text prompt. To manipulate the inverted image, we freeze the noise maps and modify one attribute in the text prompt (either manually or via instruction based editing driven by an LLM), resulting in the generation of a new image similar to the input image with only one attribute changed. It can further control the editing strength and accept instructive text prompt. Our approach facilitates realistic text-guided image edits in real-time, requiring only 8 number of functional evaluations (NFEs) in inversion (one-time cost) and 4 NFEs per edit. Our method is not only fast, but also significantly outperforms state-of-the-art multi-step diffusion editing techniques.

Summary

AI-Generated Summary

PDF213November 26, 2024