Verbesserung der Bearbeitbarkeit in der Bildgenerierung durch schichtenweise Speicherung

papers.abstract

Die meisten Bildbearbeitungsaufgaben in der Praxis erfordern mehrere sequenzielle Bearbeitungsschritte, um die gewünschten Ergebnisse zu erzielen. Aktuelle Bearbeitungsansätze, die primär für die Modifikation einzelner Objekte konzipiert sind, haben Schwierigkeiten mit sequenziellen Bearbeitungen: insbesondere bei der Beibehaltung vorheriger Änderungen und der natürlichen Integration neuer Objekte in den bestehenden Inhalt. Diese Einschränkungen behindern erheblich komplexe Bearbeitungsszenarien, in denen mehrere Objekte modifiziert werden müssen, während ihre kontextuellen Beziehungen erhalten bleiben. Wir gehen diese grundlegende Herausforderung durch zwei zentrale Vorschläge an: die Ermöglichung von groben Maskeneingaben, die bestehende Inhalte bewahren und neue Elemente natürlich integrieren, sowie die Unterstützung konsistenter Bearbeitungen über mehrere Modifikationen hinweg. Unser Framework erreicht dies durch eine schichtenweise Speicherung, die latente Repräsentationen und Prompt-Embeddings aus vorherigen Bearbeitungen speichert. Wir schlagen die Background Consistency Guidance vor, die gespeicherte latente Repräsentationen nutzt, um die Szenenkohärenz zu bewahren, sowie die Multi-Query Disentanglement in der Cross-Attention, die eine natürliche Anpassung an bestehende Inhalte sicherstellt. Um unsere Methode zu evaluieren, präsentieren wir einen neuen Benchmark-Datensatz, der semantische Ausrichtungsmetriken und interaktive Bearbeitungsszenarien umfasst. Durch umfassende Experimente demonstrieren wir eine überlegene Leistung bei iterativen Bildbearbeitungsaufgaben mit minimalem Benutzeraufwand, wobei nur grobe Masken erforderlich sind und gleichzeitig hochwertige Ergebnisse über mehrere Bearbeitungsschritte hinweg erhalten bleiben.

English

Most real-world image editing tasks require multiple sequential edits to achieve desired results. Current editing approaches, primarily designed for single-object modifications, struggle with sequential editing: especially with maintaining previous edits along with adapting new objects naturally into the existing content. These limitations significantly hinder complex editing scenarios where multiple objects need to be modified while preserving their contextual relationships. We address this fundamental challenge through two key proposals: enabling rough mask inputs that preserve existing content while naturally integrating new elements and supporting consistent editing across multiple modifications. Our framework achieves this through layer-wise memory, which stores latent representations and prompt embeddings from previous edits. We propose Background Consistency Guidance that leverages memorized latents to maintain scene coherence and Multi-Query Disentanglement in cross-attention that ensures natural adaptation to existing content. To evaluate our method, we present a new benchmark dataset incorporating semantic alignment metrics and interactive editing scenarios. Through comprehensive experiments, we demonstrate superior performance in iterative image editing tasks with minimal user effort, requiring only rough masks while maintaining high-quality results throughout multiple editing steps.

Verbesserung der Bearbeitbarkeit in der Bildgenerierung durch schichtenweise Speicherung

Improving Editability in Image Generation with Layer-wise Memory

papers.abstract

Support