KV-Edit: Training-Vrij Beeldbewerken voor Nauwkeurige Achtergrondbehoud
KV-Edit: Training-Free Image Editing for Precise Background Preservation
February 24, 2025
Auteurs: Tianrui Zhu, Shiyi Zhang, Jiawei Shao, Yansong Tang
cs.AI
Samenvatting
Achtergrondconsistentie blijft een belangrijke uitdaging in beeldbewerkingstaken. Ondanks uitgebreide ontwikkelingen kampen bestaande methoden nog steeds met een afweging tussen het behouden van gelijkenis met het originele beeld en het genereren van inhoud die aansluit bij het doel. Hier stellen we KV-Edit voor, een trainingsvrije aanpak die gebruikmaakt van de KV-cache in DiTs om achtergrondconsistentie te behouden, waarbij achtergrondtokens worden bewaard in plaats van opnieuw gegenereerd, waardoor complexe mechanismen of kostbare training overbodig worden en uiteindelijk nieuwe inhoud wordt gegenereerd die naadloos integreert met de achtergrond binnen door de gebruiker opgegeven regio's. We onderzoeken verder het geheugengebruik van de KV-cache tijdens het bewerken en optimaliseren de ruimtecomplexiteit naar O(1) met behulp van een inversievrije methode. Onze aanpak is compatibel met elk DiT-gebaseerd generatief model zonder aanvullende training. Experimenten tonen aan dat KV-Edit bestaande methoden aanzienlijk overtreft wat betreft zowel achtergrond- als beeldkwaliteit, en zelfs trainingsgebaseerde methoden overstijgt. De projectwebpagina is beschikbaar op https://xilluill.github.io/projectpages/KV-Edit.
English
Background consistency remains a significant challenge in image editing
tasks. Despite extensive developments, existing works still face a trade-off
between maintaining similarity to the original image and generating content
that aligns with the target. Here, we propose KV-Edit, a training-free approach
that uses KV cache in DiTs to maintain background consistency, where background
tokens are preserved rather than regenerated, eliminating the need for complex
mechanisms or expensive training, ultimately generating new content that
seamlessly integrates with the background within user-provided regions. We
further explore the memory consumption of the KV cache during editing and
optimize the space complexity to O(1) using an inversion-free method. Our
approach is compatible with any DiT-based generative model without additional
training. Experiments demonstrate that KV-Edit significantly outperforms
existing approaches in terms of both background and image quality, even
surpassing training-based methods. Project webpage is available at
https://xilluill.github.io/projectpages/KV-EditSummary
AI-Generated Summary