ChatPaper.aiChatPaper

Verbeteren van bewerkbaarheid in beeldgeneratie met laaggeheugen

Improving Editability in Image Generation with Layer-wise Memory

May 2, 2025
Auteurs: Daneul Kim, Jaeah Lee, Jaesik Park
cs.AI

Samenvatting

De meeste beeldbewerkingstaken in de praktijk vereisen meerdere opeenvolgende bewerkingen om de gewenste resultaten te bereiken. Huidige bewerkingsmethoden, die voornamelijk zijn ontworpen voor wijzigingen aan één object, hebben moeite met opeenvolgende bewerkingen: met name het behouden van eerdere bewerkingen en het natuurlijk integreren van nieuwe objecten in de bestaande inhoud. Deze beperkingen belemmeren complexe bewerkingsscenario's aanzienlijk, waarbij meerdere objecten moeten worden aangepast terwijl hun contextuele relaties behouden blijven. Wij pakken deze fundamentele uitdaging aan via twee belangrijke voorstellen: het mogelijk maken van ruwe maskerinvoer die bestaande inhoud behoudt terwijl nieuwe elementen natuurlijk worden geïntegreerd, en het ondersteunen van consistente bewerkingen over meerdere wijzigingen heen. Ons framework bereikt dit door middel van laaggewijs geheugen, dat latente representaties en prompt-embeddings van eerdere bewerkingen opslaat. Wij stellen Background Consistency Guidance voor, dat gebruikmaakt van opgeslagen latente representaties om de samenhang van de scène te behouden, en Multi-Query Disentanglement in cross-attention, dat zorgt voor een natuurlijke aanpassing aan bestaande inhoud. Om onze methode te evalueren, presenteren we een nieuwe benchmarkdataset met semantische uitlijningsmetrieken en interactieve bewerkingsscenario's. Door middel van uitgebreide experimenten tonen we superieure prestaties aan bij iteratieve beeldbewerkingstaken met minimale gebruikersinspanning, waarbij alleen ruwe maskers nodig zijn terwijl hoogwaardige resultaten worden behouden gedurende meerdere bewerkingsstappen.
English
Most real-world image editing tasks require multiple sequential edits to achieve desired results. Current editing approaches, primarily designed for single-object modifications, struggle with sequential editing: especially with maintaining previous edits along with adapting new objects naturally into the existing content. These limitations significantly hinder complex editing scenarios where multiple objects need to be modified while preserving their contextual relationships. We address this fundamental challenge through two key proposals: enabling rough mask inputs that preserve existing content while naturally integrating new elements and supporting consistent editing across multiple modifications. Our framework achieves this through layer-wise memory, which stores latent representations and prompt embeddings from previous edits. We propose Background Consistency Guidance that leverages memorized latents to maintain scene coherence and Multi-Query Disentanglement in cross-attention that ensures natural adaptation to existing content. To evaluate our method, we present a new benchmark dataset incorporating semantic alignment metrics and interactive editing scenarios. Through comprehensive experiments, we demonstrate superior performance in iterative image editing tasks with minimal user effort, requiring only rough masks while maintaining high-quality results throughout multiple editing steps.
PDF291May 5, 2025