KV-Edit: Modifica delle Immagini Senza Addestramento per una Conservazione Precisa dello Sfondo
KV-Edit: Training-Free Image Editing for Precise Background Preservation
February 24, 2025
Autori: Tianrui Zhu, Shiyi Zhang, Jiawei Shao, Yansong Tang
cs.AI
Abstract
La coerenza dello sfondo rimane una sfida significativa nei compiti di modifica delle immagini. Nonostante i notevoli progressi, i lavori esistenti devono ancora affrontare un compromesso tra il mantenimento della somiglianza con l'immagine originale e la generazione di contenuti che si allineano con l'obiettivo. Qui proponiamo KV-Edit, un approccio senza addestramento che utilizza la cache KV nei DiT per mantenere la coerenza dello sfondo, dove i token dello sfondo vengono preservati anziché rigenerati, eliminando la necessità di meccanismi complessi o di un addestramento costoso, generando infine nuovi contenuti che si integrano perfettamente con lo sfondo all'interno delle regioni fornite dall'utente. Esploriamo ulteriormente il consumo di memoria della cache KV durante la modifica e ottimizziamo la complessità spaziale a O(1) utilizzando un metodo senza inversione. Il nostro approccio è compatibile con qualsiasi modello generativo basato su DiT senza ulteriore addestramento. Gli esperimenti dimostrano che KV-Edit supera significativamente gli approcci esistenti sia in termini di qualità dello sfondo che dell'immagine, superando persino i metodi basati sull'addestramento. La pagina del progetto è disponibile all'indirizzo https://xilluill.github.io/projectpages/KV-Edit.
English
Background consistency remains a significant challenge in image editing
tasks. Despite extensive developments, existing works still face a trade-off
between maintaining similarity to the original image and generating content
that aligns with the target. Here, we propose KV-Edit, a training-free approach
that uses KV cache in DiTs to maintain background consistency, where background
tokens are preserved rather than regenerated, eliminating the need for complex
mechanisms or expensive training, ultimately generating new content that
seamlessly integrates with the background within user-provided regions. We
further explore the memory consumption of the KV cache during editing and
optimize the space complexity to O(1) using an inversion-free method. Our
approach is compatible with any DiT-based generative model without additional
training. Experiments demonstrate that KV-Edit significantly outperforms
existing approaches in terms of both background and image quality, even
surpassing training-based methods. Project webpage is available at
https://xilluill.github.io/projectpages/KV-EditSummary
AI-Generated Summary