KV-Edit: 정확한 배경 보존을 위한 학습 없는 이미지 편집
KV-Edit: Training-Free Image Editing for Precise Background Preservation
February 24, 2025
저자: Tianrui Zhu, Shiyi Zhang, Jiawei Shao, Yansong Tang
cs.AI
초록
이미지 편집 작업에서 배경 일관성은 여전히 중요한 과제로 남아 있습니다. 광범위한 발전에도 불구하고, 기존 연구들은 원본 이미지와의 유사성을 유지하는 것과 목표에 부합하는 콘텐츠를 생성하는 것 사이의 균형을 맞추는 데 어려움을 겪고 있습니다. 본 논문에서는 이러한 문제를 해결하기 위해 KV-Edit를 제안합니다. KV-Edit는 DiT(Diffusion Transformer)에서 KV 캐시를 활용하여 배경 일관성을 유지하는 훈련이 필요 없는 접근 방식으로, 복잡한 메커니즘이나 고비용의 훈련 없이도 배경 토큰을 재생성하지 않고 보존함으로써 사용자가 제공한 영역 내에서 배경과 자연스럽게 통합된 새로운 콘텐츠를 생성합니다. 또한 편집 과정에서 KV 캐시의 메모리 소비를 탐구하고, 역전(inversion)이 필요 없는 방법을 사용하여 공간 복잡도를 O(1)로 최적화했습니다. 우리의 접근 방식은 추가 훈련 없이도 모든 DiT 기반 생성 모델과 호환됩니다. 실험 결과, KV-Edit는 배경 및 이미지 품질 측면에서 기존 접근 방식을 크게 능가하며, 심지어 훈련 기반 방법들보다도 우수한 성능을 보여줍니다. 프로젝트 웹페이지는 https://xilluill.github.io/projectpages/KV-Edit에서 확인할 수 있습니다.
English
Background consistency remains a significant challenge in image editing
tasks. Despite extensive developments, existing works still face a trade-off
between maintaining similarity to the original image and generating content
that aligns with the target. Here, we propose KV-Edit, a training-free approach
that uses KV cache in DiTs to maintain background consistency, where background
tokens are preserved rather than regenerated, eliminating the need for complex
mechanisms or expensive training, ultimately generating new content that
seamlessly integrates with the background within user-provided regions. We
further explore the memory consumption of the KV cache during editing and
optimize the space complexity to O(1) using an inversion-free method. Our
approach is compatible with any DiT-based generative model without additional
training. Experiments demonstrate that KV-Edit significantly outperforms
existing approaches in terms of both background and image quality, even
surpassing training-based methods. Project webpage is available at
https://xilluill.github.io/projectpages/KV-EditSummary
AI-Generated Summary