KV-Edit: Edición de imágenes sin entrenamiento para la preservación precisa del fondo
KV-Edit: Training-Free Image Editing for Precise Background Preservation
February 24, 2025
Autores: Tianrui Zhu, Shiyi Zhang, Jiawei Shao, Yansong Tang
cs.AI
Resumen
La consistencia del fondo sigue siendo un desafío significativo en las tareas de edición de imágenes. A pesar de los avances extensos, los trabajos existentes aún enfrentan un compromiso entre mantener la similitud con la imagen original y generar contenido que se alinee con el objetivo. Aquí, proponemos KV-Edit, un enfoque sin entrenamiento que utiliza la caché KV en DiTs para mantener la consistencia del fondo, donde los tokens del fondo se preservan en lugar de regenerarse, eliminando la necesidad de mecanismos complejos o entrenamientos costosos, generando finalmente contenido nuevo que se integra perfectamente con el fondo dentro de las regiones proporcionadas por el usuario. Además, exploramos el consumo de memoria de la caché KV durante la edición y optimizamos la complejidad espacial a O(1) utilizando un método libre de inversión. Nuestro enfoque es compatible con cualquier modelo generativo basado en DiT sin necesidad de entrenamiento adicional. Los experimentos demuestran que KV-Edit supera significativamente a los enfoques existentes en términos de calidad tanto del fondo como de la imagen, incluso superando a los métodos basados en entrenamiento. La página web del proyecto está disponible en https://xilluill.github.io/projectpages/KV-Edit.
English
Background consistency remains a significant challenge in image editing
tasks. Despite extensive developments, existing works still face a trade-off
between maintaining similarity to the original image and generating content
that aligns with the target. Here, we propose KV-Edit, a training-free approach
that uses KV cache in DiTs to maintain background consistency, where background
tokens are preserved rather than regenerated, eliminating the need for complex
mechanisms or expensive training, ultimately generating new content that
seamlessly integrates with the background within user-provided regions. We
further explore the memory consumption of the KV cache during editing and
optimize the space complexity to O(1) using an inversion-free method. Our
approach is compatible with any DiT-based generative model without additional
training. Experiments demonstrate that KV-Edit significantly outperforms
existing approaches in terms of both background and image quality, even
surpassing training-based methods. Project webpage is available at
https://xilluill.github.io/projectpages/KV-EditSummary
AI-Generated Summary