KV-Edit: 背景の正確な保持を実現するトレーニング不要の画像編集
KV-Edit: Training-Free Image Editing for Precise Background Preservation
February 24, 2025
著者: Tianrui Zhu, Shiyi Zhang, Jiawei Shao, Yansong Tang
cs.AI
要旨
画像編集タスクにおいて、背景の一貫性は依然として重要な課題です。これまでの多くの進展にもかかわらず、既存の手法では、元の画像との類似性を維持することと、ターゲットに沿ったコンテンツを生成することの間でトレードオフが生じています。本論文では、KV-Editを提案します。これは、DiT(Diffusion Transformers)におけるKVキャッシュを利用したトレーニング不要のアプローチであり、背景トークンを再生成するのではなく保持することで、複雑なメカニズムや高コストなトレーニングを必要とせず、ユーザーが指定した領域内で背景とシームレスに統合された新しいコンテンツを生成します。さらに、編集時のKVキャッシュのメモリ消費量を調査し、反転を必要としない方法で空間計算量をO(1)に最適化しました。このアプローチは、追加のトレーニングを必要とせず、あらゆるDiTベースの生成モデルと互換性があります。実験結果は、KV-Editが背景と画像品質の両面において既存の手法を大幅に上回り、トレーニングベースの手法さえも凌駕することを示しています。プロジェクトのウェブページは以下で公開されています:https://xilluill.github.io/projectpages/KV-Edit
English
Background consistency remains a significant challenge in image editing
tasks. Despite extensive developments, existing works still face a trade-off
between maintaining similarity to the original image and generating content
that aligns with the target. Here, we propose KV-Edit, a training-free approach
that uses KV cache in DiTs to maintain background consistency, where background
tokens are preserved rather than regenerated, eliminating the need for complex
mechanisms or expensive training, ultimately generating new content that
seamlessly integrates with the background within user-provided regions. We
further explore the memory consumption of the KV cache during editing and
optimize the space complexity to O(1) using an inversion-free method. Our
approach is compatible with any DiT-based generative model without additional
training. Experiments demonstrate that KV-Edit significantly outperforms
existing approaches in terms of both background and image quality, even
surpassing training-based methods. Project webpage is available at
https://xilluill.github.io/projectpages/KV-EditSummary
AI-Generated Summary