KV-Edit: Edição de Imagens sem Treinamento para Preservação Precisa do Plano de Fundo
KV-Edit: Training-Free Image Editing for Precise Background Preservation
February 24, 2025
Autores: Tianrui Zhu, Shiyi Zhang, Jiawei Shao, Yansong Tang
cs.AI
Resumo
A consistência do fundo continua sendo um desafio significativo em tarefas de edição de imagens. Apesar dos extensos desenvolvimentos, os trabalhos existentes ainda enfrentam uma troca entre manter a semelhança com a imagem original e gerar conteúdo que se alinhe com o alvo. Aqui, propomos o KV-Edit, uma abordagem sem treinamento que utiliza o cache KV em DiTs para manter a consistência do fundo, onde os tokens de fundo são preservados em vez de regenerados, eliminando a necessidade de mecanismos complexos ou treinamento dispendioso, gerando, por fim, novo conteúdo que se integra perfeitamente ao fundo dentro das regiões fornecidas pelo usuário. Exploramos ainda o consumo de memória do cache KV durante a edição e otimizamos a complexidade de espaço para O(1) usando um método livre de inversão. Nossa abordagem é compatível com qualquer modelo generativo baseado em DiT sem treinamento adicional. Experimentos demonstram que o KV-Edit supera significativamente as abordagens existentes em termos de qualidade de fundo e de imagem, superando até mesmo métodos baseados em treinamento. A página do projeto está disponível em https://xilluill.github.io/projectpages/KV-Edit.
English
Background consistency remains a significant challenge in image editing
tasks. Despite extensive developments, existing works still face a trade-off
between maintaining similarity to the original image and generating content
that aligns with the target. Here, we propose KV-Edit, a training-free approach
that uses KV cache in DiTs to maintain background consistency, where background
tokens are preserved rather than regenerated, eliminating the need for complex
mechanisms or expensive training, ultimately generating new content that
seamlessly integrates with the background within user-provided regions. We
further explore the memory consumption of the KV cache during editing and
optimize the space complexity to O(1) using an inversion-free method. Our
approach is compatible with any DiT-based generative model without additional
training. Experiments demonstrate that KV-Edit significantly outperforms
existing approaches in terms of both background and image quality, even
surpassing training-based methods. Project webpage is available at
https://xilluill.github.io/projectpages/KV-EditSummary
AI-Generated Summary