ChatPaper.aiChatPaper

KV-Edit: Modifica delle Immagini Senza Addestramento per una Conservazione Precisa dello Sfondo

KV-Edit: Training-Free Image Editing for Precise Background Preservation

February 24, 2025
Autori: Tianrui Zhu, Shiyi Zhang, Jiawei Shao, Yansong Tang
cs.AI

Abstract

La coerenza dello sfondo rimane una sfida significativa nei compiti di modifica delle immagini. Nonostante i notevoli progressi, i lavori esistenti devono ancora affrontare un compromesso tra il mantenimento della somiglianza con l'immagine originale e la generazione di contenuti che si allineano con l'obiettivo. Qui proponiamo KV-Edit, un approccio senza addestramento che utilizza la cache KV nei DiT per mantenere la coerenza dello sfondo, dove i token dello sfondo vengono preservati anziché rigenerati, eliminando la necessità di meccanismi complessi o di un addestramento costoso, generando infine nuovi contenuti che si integrano perfettamente con lo sfondo all'interno delle regioni fornite dall'utente. Esploriamo ulteriormente il consumo di memoria della cache KV durante la modifica e ottimizziamo la complessità spaziale a O(1) utilizzando un metodo senza inversione. Il nostro approccio è compatibile con qualsiasi modello generativo basato su DiT senza ulteriore addestramento. Gli esperimenti dimostrano che KV-Edit supera significativamente gli approcci esistenti sia in termini di qualità dello sfondo che dell'immagine, superando persino i metodi basati sull'addestramento. La pagina del progetto è disponibile all'indirizzo https://xilluill.github.io/projectpages/KV-Edit.
English
Background consistency remains a significant challenge in image editing tasks. Despite extensive developments, existing works still face a trade-off between maintaining similarity to the original image and generating content that aligns with the target. Here, we propose KV-Edit, a training-free approach that uses KV cache in DiTs to maintain background consistency, where background tokens are preserved rather than regenerated, eliminating the need for complex mechanisms or expensive training, ultimately generating new content that seamlessly integrates with the background within user-provided regions. We further explore the memory consumption of the KV cache during editing and optimize the space complexity to O(1) using an inversion-free method. Our approach is compatible with any DiT-based generative model without additional training. Experiments demonstrate that KV-Edit significantly outperforms existing approaches in terms of both background and image quality, even surpassing training-based methods. Project webpage is available at https://xilluill.github.io/projectpages/KV-Edit

Summary

AI-Generated Summary

PDF363February 26, 2025