ChatPaper.aiChatPaper

KV-Edit : Édition d'images sans entraînement pour une préservation précise de l'arrière-plan

KV-Edit: Training-Free Image Editing for Precise Background Preservation

February 24, 2025
Auteurs: Tianrui Zhu, Shiyi Zhang, Jiawei Shao, Yansong Tang
cs.AI

Résumé

La cohérence de l'arrière-plan reste un défi majeur dans les tâches d'édition d'images. Malgré des avancées significatives, les travaux existants continuent de faire face à un compromis entre le maintien de la similitude avec l'image originale et la génération de contenu aligné avec la cible. Nous proposons ici KV-Edit, une approche sans entraînement qui utilise le cache KV dans les DiTs pour préserver la cohérence de l'arrière-plan, où les tokens de l'arrière-plan sont conservés plutôt que régénérés, éliminant ainsi le besoin de mécanismes complexes ou d'un entraînement coûteux, et permettant finalement de générer un nouveau contenu qui s'intègre parfaitement à l'arrière-plan dans les régions spécifiées par l'utilisateur. Nous explorons également la consommation de mémoire du cache KV pendant l'édition et optimisons la complexité spatiale à O(1) grâce à une méthode sans inversion. Notre approche est compatible avec tout modèle génératif basé sur DiT sans nécessiter d'entraînement supplémentaire. Les expériences montrent que KV-Edit surpasse significativement les approches existantes en termes de qualité de l'arrière-plan et de l'image, dépassant même les méthodes basées sur l'entraînement. La page web du projet est disponible à l'adresse suivante : https://xilluill.github.io/projectpages/KV-Edit.
English
Background consistency remains a significant challenge in image editing tasks. Despite extensive developments, existing works still face a trade-off between maintaining similarity to the original image and generating content that aligns with the target. Here, we propose KV-Edit, a training-free approach that uses KV cache in DiTs to maintain background consistency, where background tokens are preserved rather than regenerated, eliminating the need for complex mechanisms or expensive training, ultimately generating new content that seamlessly integrates with the background within user-provided regions. We further explore the memory consumption of the KV cache during editing and optimize the space complexity to O(1) using an inversion-free method. Our approach is compatible with any DiT-based generative model without additional training. Experiments demonstrate that KV-Edit significantly outperforms existing approaches in terms of both background and image quality, even surpassing training-based methods. Project webpage is available at https://xilluill.github.io/projectpages/KV-Edit

Summary

AI-Generated Summary

PDF363February 26, 2025