Amélioration de l'éditabilité dans la génération d'images avec une mémoire par couches

papers.abstract

La plupart des tâches de retouche d'images dans le monde réel nécessitent des modifications séquentielles multiples pour obtenir les résultats souhaités. Les approches actuelles de retouche, principalement conçues pour des modifications sur un seul objet, peinent à gérer les éditions séquentielles : notamment en maintenant les modifications précédentes tout en intégrant naturellement de nouveaux objets dans le contenu existant. Ces limitations entravent considérablement les scénarios de retouche complexes où plusieurs objets doivent être modifiés tout en préservant leurs relations contextuelles. Nous abordons ce défi fondamental à travers deux propositions clés : permettre des masques approximatifs qui préservent le contenu existant tout en intégrant naturellement de nouveaux éléments, et soutenir une retouche cohérente à travers plusieurs modifications. Notre cadre réalise cela grâce à une mémoire par couches, qui stocke les représentations latentes et les embeddings de prompts des modifications précédentes. Nous proposons un Guidage de Cohérence de l'Arrière-plan qui exploite les latents mémorisés pour maintenir la cohérence de la scène, ainsi qu'une Désentrelacement Multi-Requête dans l'attention croisée qui assure une adaptation naturelle au contenu existant. Pour évaluer notre méthode, nous présentons un nouveau jeu de données de référence intégrant des métriques d'alignement sémantique et des scénarios de retouche interactive. À travers des expériences approfondies, nous démontrons une performance supérieure dans les tâches de retouche itérative d'images avec un effort utilisateur minimal, nécessitant uniquement des masques approximatifs tout en maintenant des résultats de haute qualité à travers plusieurs étapes de retouche.

English

Most real-world image editing tasks require multiple sequential edits to achieve desired results. Current editing approaches, primarily designed for single-object modifications, struggle with sequential editing: especially with maintaining previous edits along with adapting new objects naturally into the existing content. These limitations significantly hinder complex editing scenarios where multiple objects need to be modified while preserving their contextual relationships. We address this fundamental challenge through two key proposals: enabling rough mask inputs that preserve existing content while naturally integrating new elements and supporting consistent editing across multiple modifications. Our framework achieves this through layer-wise memory, which stores latent representations and prompt embeddings from previous edits. We propose Background Consistency Guidance that leverages memorized latents to maintain scene coherence and Multi-Query Disentanglement in cross-attention that ensures natural adaptation to existing content. To evaluate our method, we present a new benchmark dataset incorporating semantic alignment metrics and interactive editing scenarios. Through comprehensive experiments, we demonstrate superior performance in iterative image editing tasks with minimal user effort, requiring only rough masks while maintaining high-quality results throughout multiple editing steps.

Amélioration de l'éditabilité dans la génération d'images avec une mémoire par couches

Improving Editability in Image Generation with Layer-wise Memory

papers.abstract

Support