KV-Edit: Edição de Imagens sem Treinamento para Preservação Precisa do Plano de Fundo

Resumo

A consistência do fundo continua sendo um desafio significativo em tarefas de edição de imagens. Apesar dos extensos desenvolvimentos, os trabalhos existentes ainda enfrentam uma troca entre manter a semelhança com a imagem original e gerar conteúdo que se alinhe com o alvo. Aqui, propomos o KV-Edit, uma abordagem sem treinamento que utiliza o cache KV em DiTs para manter a consistência do fundo, onde os tokens de fundo são preservados em vez de regenerados, eliminando a necessidade de mecanismos complexos ou treinamento dispendioso, gerando, por fim, novo conteúdo que se integra perfeitamente ao fundo dentro das regiões fornecidas pelo usuário. Exploramos ainda o consumo de memória do cache KV durante a edição e otimizamos a complexidade de espaço para O(1) usando um método livre de inversão. Nossa abordagem é compatível com qualquer modelo generativo baseado em DiT sem treinamento adicional. Experimentos demonstram que o KV-Edit supera significativamente as abordagens existentes em termos de qualidade de fundo e de imagem, superando até mesmo métodos baseados em treinamento. A página do projeto está disponível em https://xilluill.github.io/projectpages/KV-Edit.

English

Background consistency remains a significant challenge in image editing tasks. Despite extensive developments, existing works still face a trade-off between maintaining similarity to the original image and generating content that aligns with the target. Here, we propose KV-Edit, a training-free approach that uses KV cache in DiTs to maintain background consistency, where background tokens are preserved rather than regenerated, eliminating the need for complex mechanisms or expensive training, ultimately generating new content that seamlessly integrates with the background within user-provided regions. We further explore the memory consumption of the KV cache during editing and optimize the space complexity to O(1) using an inversion-free method. Our approach is compatible with any DiT-based generative model without additional training. Experiments demonstrate that KV-Edit significantly outperforms existing approaches in terms of both background and image quality, even surpassing training-based methods. Project webpage is available at https://xilluill.github.io/projectpages/KV-Edit

KV-Edit: Edição de Imagens sem Treinamento para Preservação Precisa do Plano de Fundo

KV-Edit: Training-Free Image Editing for Precise Background Preservation

Resumo

Support