Mejora de la editabilidad en la generación de imágenes con memoria por capas
Improving Editability in Image Generation with Layer-wise Memory
May 2, 2025
Autores: Daneul Kim, Jaeah Lee, Jaesik Park
cs.AI
Resumen
La mayoría de las tareas de edición de imágenes en el mundo real requieren múltiples ediciones secuenciales para lograr los resultados deseados. Los enfoques actuales de edición, diseñados principalmente para modificaciones de un solo objeto, enfrentan dificultades con la edición secuencial: especialmente para mantener las ediciones previas y adaptar nuevos objetos de manera natural al contenido existente. Estas limitaciones obstaculizan significativamente los escenarios de edición complejos donde se necesitan modificar múltiples objetos mientras se preservan sus relaciones contextuales. Abordamos este desafío fundamental a través de dos propuestas clave: habilitar entradas de máscaras aproximadas que preserven el contenido existente mientras integran nuevos elementos de manera natural y apoyar la edición consistente a través de múltiples modificaciones. Nuestro marco logra esto mediante una memoria por capas, que almacena representaciones latentes e incrustaciones de indicaciones de ediciones previas. Proponemos una Guía de Consistencia de Fondo que aprovecha las representaciones latentes memorizadas para mantener la coherencia de la escena y una Desentrelazado de Múltiples Consultas en la atención cruzada que asegura una adaptación natural al contenido existente. Para evaluar nuestro método, presentamos un nuevo conjunto de datos de referencia que incorpora métricas de alineación semántica y escenarios de edición interactiva. A través de experimentos exhaustivos, demostramos un rendimiento superior en tareas de edición iterativa de imágenes con un esfuerzo mínimo del usuario, requiriendo solo máscaras aproximadas mientras se mantienen resultados de alta calidad a lo largo de múltiples pasos de edición.
English
Most real-world image editing tasks require multiple sequential edits to
achieve desired results. Current editing approaches, primarily designed for
single-object modifications, struggle with sequential editing: especially with
maintaining previous edits along with adapting new objects naturally into the
existing content. These limitations significantly hinder complex editing
scenarios where multiple objects need to be modified while preserving their
contextual relationships. We address this fundamental challenge through two key
proposals: enabling rough mask inputs that preserve existing content while
naturally integrating new elements and supporting consistent editing across
multiple modifications. Our framework achieves this through layer-wise memory,
which stores latent representations and prompt embeddings from previous edits.
We propose Background Consistency Guidance that leverages memorized latents to
maintain scene coherence and Multi-Query Disentanglement in cross-attention
that ensures natural adaptation to existing content. To evaluate our method, we
present a new benchmark dataset incorporating semantic alignment metrics and
interactive editing scenarios. Through comprehensive experiments, we
demonstrate superior performance in iterative image editing tasks with minimal
user effort, requiring only rough masks while maintaining high-quality results
throughout multiple editing steps.Summary
AI-Generated Summary