ChatPaper.aiChatPaper

KV-Edit: Trainingsfreie Bildbearbeitung zur präzisen Hintergrunderhaltung

KV-Edit: Training-Free Image Editing for Precise Background Preservation

February 24, 2025
Autoren: Tianrui Zhu, Shiyi Zhang, Jiawei Shao, Yansong Tang
cs.AI

Zusammenfassung

Die Hintergrundkonsistenz bleibt eine wesentliche Herausforderung bei Bildbearbeitungsaufgaben. Trotz umfangreicher Entwicklungen besteht bei bestehenden Arbeiten weiterhin ein Kompromiss zwischen der Beibehaltung der Ähnlichkeit zum Originalbild und der Erzeugung von Inhalten, die mit dem Ziel übereinstimmen. Hier schlagen wir KV-Edit vor, einen trainingsfreien Ansatz, der den KV-Cache in DiTs nutzt, um die Hintergrundkonsistenz zu bewahren, wobei Hintergrund-Tokens erhalten bleiben, anstatt neu generiert zu werden. Dadurch entfällt die Notwendigkeit für komplexe Mechanismen oder aufwändiges Training, und es wird letztendlich neuer Inhalt erzeugt, der sich nahtlos in den Hintergrund innerhalb der vom Benutzer vorgegebenen Regionen einfügt. Wir untersuchen weiterhin den Speicherverbrauch des KV-Caches während der Bearbeitung und optimieren die Raumkomplexität auf O(1) mittels einer inversionsfreien Methode. Unser Ansatz ist mit jedem DiT-basierten generativen Modell kompatibel, ohne dass zusätzliches Training erforderlich ist. Experimente zeigen, dass KV-Edit bestehende Ansätze sowohl in Bezug auf die Hintergrund- als auch auf die Bildqualität deutlich übertrifft und sogar trainierte Methoden übertrumpft. Die Projektwebseite ist verfügbar unter https://xilluill.github.io/projectpages/KV-Edit.
English
Background consistency remains a significant challenge in image editing tasks. Despite extensive developments, existing works still face a trade-off between maintaining similarity to the original image and generating content that aligns with the target. Here, we propose KV-Edit, a training-free approach that uses KV cache in DiTs to maintain background consistency, where background tokens are preserved rather than regenerated, eliminating the need for complex mechanisms or expensive training, ultimately generating new content that seamlessly integrates with the background within user-provided regions. We further explore the memory consumption of the KV cache during editing and optimize the space complexity to O(1) using an inversion-free method. Our approach is compatible with any DiT-based generative model without additional training. Experiments demonstrate that KV-Edit significantly outperforms existing approaches in terms of both background and image quality, even surpassing training-based methods. Project webpage is available at https://xilluill.github.io/projectpages/KV-Edit

Summary

AI-Generated Summary

PDF363February 26, 2025