Verbesserung der Bearbeitbarkeit in der Bildgenerierung durch schichtenweise Speicherung
Improving Editability in Image Generation with Layer-wise Memory
May 2, 2025
Autoren: Daneul Kim, Jaeah Lee, Jaesik Park
cs.AI
Zusammenfassung
Die meisten Bildbearbeitungsaufgaben in der Praxis erfordern mehrere sequenzielle Bearbeitungsschritte, um die gewünschten Ergebnisse zu erzielen. Aktuelle Bearbeitungsansätze, die primär für die Modifikation einzelner Objekte konzipiert sind, haben Schwierigkeiten mit sequenziellen Bearbeitungen: insbesondere bei der Beibehaltung vorheriger Änderungen und der natürlichen Integration neuer Objekte in den bestehenden Inhalt. Diese Einschränkungen behindern erheblich komplexe Bearbeitungsszenarien, in denen mehrere Objekte modifiziert werden müssen, während ihre kontextuellen Beziehungen erhalten bleiben. Wir gehen diese grundlegende Herausforderung durch zwei zentrale Vorschläge an: die Ermöglichung von groben Maskeneingaben, die bestehende Inhalte bewahren und neue Elemente natürlich integrieren, sowie die Unterstützung konsistenter Bearbeitungen über mehrere Modifikationen hinweg. Unser Framework erreicht dies durch eine schichtenweise Speicherung, die latente Repräsentationen und Prompt-Embeddings aus vorherigen Bearbeitungen speichert. Wir schlagen die Background Consistency Guidance vor, die gespeicherte latente Repräsentationen nutzt, um die Szenenkohärenz zu bewahren, sowie die Multi-Query Disentanglement in der Cross-Attention, die eine natürliche Anpassung an bestehende Inhalte sicherstellt. Um unsere Methode zu evaluieren, präsentieren wir einen neuen Benchmark-Datensatz, der semantische Ausrichtungsmetriken und interaktive Bearbeitungsszenarien umfasst. Durch umfassende Experimente demonstrieren wir eine überlegene Leistung bei iterativen Bildbearbeitungsaufgaben mit minimalem Benutzeraufwand, wobei nur grobe Masken erforderlich sind und gleichzeitig hochwertige Ergebnisse über mehrere Bearbeitungsschritte hinweg erhalten bleiben.
English
Most real-world image editing tasks require multiple sequential edits to
achieve desired results. Current editing approaches, primarily designed for
single-object modifications, struggle with sequential editing: especially with
maintaining previous edits along with adapting new objects naturally into the
existing content. These limitations significantly hinder complex editing
scenarios where multiple objects need to be modified while preserving their
contextual relationships. We address this fundamental challenge through two key
proposals: enabling rough mask inputs that preserve existing content while
naturally integrating new elements and supporting consistent editing across
multiple modifications. Our framework achieves this through layer-wise memory,
which stores latent representations and prompt embeddings from previous edits.
We propose Background Consistency Guidance that leverages memorized latents to
maintain scene coherence and Multi-Query Disentanglement in cross-attention
that ensures natural adaptation to existing content. To evaluate our method, we
present a new benchmark dataset incorporating semantic alignment metrics and
interactive editing scenarios. Through comprehensive experiments, we
demonstrate superior performance in iterative image editing tasks with minimal
user effort, requiring only rough masks while maintaining high-quality results
throughout multiple editing steps.Summary
AI-Generated Summary