Amélioration de l'éditabilité dans la génération d'images avec une mémoire par couches
Improving Editability in Image Generation with Layer-wise Memory
May 2, 2025
Auteurs: Daneul Kim, Jaeah Lee, Jaesik Park
cs.AI
Résumé
La plupart des tâches de retouche d'images dans le monde réel nécessitent des modifications séquentielles multiples pour obtenir les résultats souhaités. Les approches actuelles de retouche, principalement conçues pour des modifications sur un seul objet, peinent à gérer les éditions séquentielles : notamment en maintenant les modifications précédentes tout en intégrant naturellement de nouveaux objets dans le contenu existant. Ces limitations entravent considérablement les scénarios de retouche complexes où plusieurs objets doivent être modifiés tout en préservant leurs relations contextuelles. Nous abordons ce défi fondamental à travers deux propositions clés : permettre des masques approximatifs qui préservent le contenu existant tout en intégrant naturellement de nouveaux éléments, et soutenir une retouche cohérente à travers plusieurs modifications. Notre cadre réalise cela grâce à une mémoire par couches, qui stocke les représentations latentes et les embeddings de prompts des modifications précédentes. Nous proposons un Guidage de Cohérence de l'Arrière-plan qui exploite les latents mémorisés pour maintenir la cohérence de la scène, ainsi qu'une Désentrelacement Multi-Requête dans l'attention croisée qui assure une adaptation naturelle au contenu existant. Pour évaluer notre méthode, nous présentons un nouveau jeu de données de référence intégrant des métriques d'alignement sémantique et des scénarios de retouche interactive. À travers des expériences approfondies, nous démontrons une performance supérieure dans les tâches de retouche itérative d'images avec un effort utilisateur minimal, nécessitant uniquement des masques approximatifs tout en maintenant des résultats de haute qualité à travers plusieurs étapes de retouche.
English
Most real-world image editing tasks require multiple sequential edits to
achieve desired results. Current editing approaches, primarily designed for
single-object modifications, struggle with sequential editing: especially with
maintaining previous edits along with adapting new objects naturally into the
existing content. These limitations significantly hinder complex editing
scenarios where multiple objects need to be modified while preserving their
contextual relationships. We address this fundamental challenge through two key
proposals: enabling rough mask inputs that preserve existing content while
naturally integrating new elements and supporting consistent editing across
multiple modifications. Our framework achieves this through layer-wise memory,
which stores latent representations and prompt embeddings from previous edits.
We propose Background Consistency Guidance that leverages memorized latents to
maintain scene coherence and Multi-Query Disentanglement in cross-attention
that ensures natural adaptation to existing content. To evaluate our method, we
present a new benchmark dataset incorporating semantic alignment metrics and
interactive editing scenarios. Through comprehensive experiments, we
demonstrate superior performance in iterative image editing tasks with minimal
user effort, requiring only rough masks while maintaining high-quality results
throughout multiple editing steps.Summary
AI-Generated Summary