KV-Edit: Edición de imágenes sin entrenamiento para la preservación precisa del fondo

Resumen

La consistencia del fondo sigue siendo un desafío significativo en las tareas de edición de imágenes. A pesar de los avances extensos, los trabajos existentes aún enfrentan un compromiso entre mantener la similitud con la imagen original y generar contenido que se alinee con el objetivo. Aquí, proponemos KV-Edit, un enfoque sin entrenamiento que utiliza la caché KV en DiTs para mantener la consistencia del fondo, donde los tokens del fondo se preservan en lugar de regenerarse, eliminando la necesidad de mecanismos complejos o entrenamientos costosos, generando finalmente contenido nuevo que se integra perfectamente con el fondo dentro de las regiones proporcionadas por el usuario. Además, exploramos el consumo de memoria de la caché KV durante la edición y optimizamos la complejidad espacial a O(1) utilizando un método libre de inversión. Nuestro enfoque es compatible con cualquier modelo generativo basado en DiT sin necesidad de entrenamiento adicional. Los experimentos demuestran que KV-Edit supera significativamente a los enfoques existentes en términos de calidad tanto del fondo como de la imagen, incluso superando a los métodos basados en entrenamiento. La página web del proyecto está disponible en https://xilluill.github.io/projectpages/KV-Edit.

English

Background consistency remains a significant challenge in image editing tasks. Despite extensive developments, existing works still face a trade-off between maintaining similarity to the original image and generating content that aligns with the target. Here, we propose KV-Edit, a training-free approach that uses KV cache in DiTs to maintain background consistency, where background tokens are preserved rather than regenerated, eliminating the need for complex mechanisms or expensive training, ultimately generating new content that seamlessly integrates with the background within user-provided regions. We further explore the memory consumption of the KV cache during editing and optimize the space complexity to O(1) using an inversion-free method. Our approach is compatible with any DiT-based generative model without additional training. Experiments demonstrate that KV-Edit significantly outperforms existing approaches in terms of both background and image quality, even surpassing training-based methods. Project webpage is available at https://xilluill.github.io/projectpages/KV-Edit

KV-Edit: Edición de imágenes sin entrenamiento para la preservación precisa del fondo

KV-Edit: Training-Free Image Editing for Precise Background Preservation

Resumen

Support