Migliorare l'editabilità nella generazione di immagini con memoria a livelli
Improving Editability in Image Generation with Layer-wise Memory
May 2, 2025
Autori: Daneul Kim, Jaeah Lee, Jaesik Park
cs.AI
Abstract
La maggior parte delle attività di modifica delle immagini nel mondo reale richiede più modifiche sequenziali per ottenere i risultati desiderati. Gli approcci di modifica attuali, progettati principalmente per modifiche a singoli oggetti, faticano con le modifiche sequenziali: in particolare nel mantenere le modifiche precedenti e nell'adattare naturalmente nuovi oggetti al contenuto esistente. Queste limitazioni ostacolano significativamente scenari di modifica complessi in cui più oggetti devono essere modificati preservando le loro relazioni contestuali. Affrontiamo questa sfida fondamentale attraverso due proposte chiave: abilitare input di maschere approssimative che preservano il contenuto esistente integrando naturalmente nuovi elementi e supportare modifiche consistenti attraverso più modifiche. Il nostro framework raggiunge questo obiettivo attraverso una memoria a strati, che memorizza rappresentazioni latenti e incorporamenti di prompt dalle modifiche precedenti. Proponiamo una Guida alla Coerenza dello Sfondo che sfrutta i latenti memorizzati per mantenere la coerenza della scena e uno Sgancio Multi-Query nell'attenzione incrociata che assicura un adattamento naturale al contenuto esistente. Per valutare il nostro metodo, presentiamo un nuovo dataset di benchmark che incorpora metriche di allineamento semantico e scenari di modifica interattivi. Attraverso esperimenti completi, dimostriamo prestazioni superiori in compiti di modifica iterativa delle immagini con uno sforzo minimo da parte dell'utente, richiedendo solo maschere approssimative mentre si mantengono risultati di alta qualità attraverso più passaggi di modifica.
English
Most real-world image editing tasks require multiple sequential edits to
achieve desired results. Current editing approaches, primarily designed for
single-object modifications, struggle with sequential editing: especially with
maintaining previous edits along with adapting new objects naturally into the
existing content. These limitations significantly hinder complex editing
scenarios where multiple objects need to be modified while preserving their
contextual relationships. We address this fundamental challenge through two key
proposals: enabling rough mask inputs that preserve existing content while
naturally integrating new elements and supporting consistent editing across
multiple modifications. Our framework achieves this through layer-wise memory,
which stores latent representations and prompt embeddings from previous edits.
We propose Background Consistency Guidance that leverages memorized latents to
maintain scene coherence and Multi-Query Disentanglement in cross-attention
that ensures natural adaptation to existing content. To evaluate our method, we
present a new benchmark dataset incorporating semantic alignment metrics and
interactive editing scenarios. Through comprehensive experiments, we
demonstrate superior performance in iterative image editing tasks with minimal
user effort, requiring only rough masks while maintaining high-quality results
throughout multiple editing steps.