Melhorando a Editabilidade na Geração de Imagens com Memória em Camadas
Improving Editability in Image Generation with Layer-wise Memory
May 2, 2025
Autores: Daneul Kim, Jaeah Lee, Jaesik Park
cs.AI
Resumo
A maioria das tarefas de edição de imagens do mundo real requer múltiplas edições sequenciais para alcançar os resultados desejados. As abordagens atuais de edição, projetadas principalmente para modificações de objetos únicos, enfrentam dificuldades com a edição sequencial: especialmente em manter edições anteriores enquanto integram novos objetos de forma natural ao conteúdo existente. Essas limitações prejudicam significativamente cenários de edição complexos, onde múltiplos objetos precisam ser modificados enquanto suas relações contextuais são preservadas. Abordamos esse desafio fundamental por meio de duas propostas principais: permitir entradas de máscaras aproximadas que preservam o conteúdo existente enquanto integram novos elementos de forma natural e suportar edições consistentes em múltiplas modificações. Nosso framework alcança isso através de uma memória em camadas, que armazena representações latentes e embeddings de prompts de edições anteriores. Propomos a Orientação de Consistência de Fundo, que aproveita os latentes memorizados para manter a coerência da cena, e a Desvinculação de Múltiplas Consultas na atenção cruzada, que garante uma adaptação natural ao conteúdo existente. Para avaliar nosso método, apresentamos um novo conjunto de dados de referência que incorpora métricas de alinhamento semântico e cenários de edição interativa. Através de experimentos abrangentes, demonstramos um desempenho superior em tarefas iterativas de edição de imagens com esforço mínimo do usuário, exigindo apenas máscaras aproximadas enquanto mantém resultados de alta qualidade ao longo de múltiplas etapas de edição.
English
Most real-world image editing tasks require multiple sequential edits to
achieve desired results. Current editing approaches, primarily designed for
single-object modifications, struggle with sequential editing: especially with
maintaining previous edits along with adapting new objects naturally into the
existing content. These limitations significantly hinder complex editing
scenarios where multiple objects need to be modified while preserving their
contextual relationships. We address this fundamental challenge through two key
proposals: enabling rough mask inputs that preserve existing content while
naturally integrating new elements and supporting consistent editing across
multiple modifications. Our framework achieves this through layer-wise memory,
which stores latent representations and prompt embeddings from previous edits.
We propose Background Consistency Guidance that leverages memorized latents to
maintain scene coherence and Multi-Query Disentanglement in cross-attention
that ensures natural adaptation to existing content. To evaluate our method, we
present a new benchmark dataset incorporating semantic alignment metrics and
interactive editing scenarios. Through comprehensive experiments, we
demonstrate superior performance in iterative image editing tasks with minimal
user effort, requiring only rough masks while maintaining high-quality results
throughout multiple editing steps.