ChatPaper.aiChatPaper

レイヤーごとのメモリを用いた画像生成における編集性の向上

Improving Editability in Image Generation with Layer-wise Memory

May 2, 2025
著者: Daneul Kim, Jaeah Lee, Jaesik Park
cs.AI

要旨

現実世界の画像編集タスクの多くは、所望の結果を得るために複数の連続的な編集を必要とする。現在の編集手法は、主に単一オブジェクトの変更を想定して設計されており、連続的な編集において課題を抱えている。特に、既存の編集内容を維持しつつ、新しいオブジェクトを自然に既存のコンテンツに適応させることが困難である。これらの制約は、複数のオブジェクトをその文脈的関係を保ちながら変更する必要がある複雑な編集シナリオにおいて大きな障壁となっている。本研究では、この根本的な課題に対処するため、2つの主要な提案を行う。既存のコンテンツを維持しつつ新しい要素を自然に統合するための粗いマスク入力を可能にすること、および複数の変更にわたって一貫した編集をサポートすることである。我々のフレームワークは、レイヤーごとのメモリを介してこれを実現し、以前の編集からの潜在表現とプロンプト埋め込みを保存する。シーンの一貫性を維持するために記憶された潜在表現を活用する背景一貫性ガイダンスと、既存のコンテンツへの自然な適応を保証するクロスアテンションにおけるマルチクエリ分離を提案する。我々の手法を評価するため、意味的整合性メトリクスとインタラクティブな編集シナリオを組み込んだ新しいベンチマークデータセットを提示する。包括的な実験を通じて、最小限のユーザー努力で反復的な画像編集タスクにおいて優れた性能を発揮し、粗いマスクのみを必要としながらも、複数の編集ステップを通じて高品質な結果を維持することを実証する。
English
Most real-world image editing tasks require multiple sequential edits to achieve desired results. Current editing approaches, primarily designed for single-object modifications, struggle with sequential editing: especially with maintaining previous edits along with adapting new objects naturally into the existing content. These limitations significantly hinder complex editing scenarios where multiple objects need to be modified while preserving their contextual relationships. We address this fundamental challenge through two key proposals: enabling rough mask inputs that preserve existing content while naturally integrating new elements and supporting consistent editing across multiple modifications. Our framework achieves this through layer-wise memory, which stores latent representations and prompt embeddings from previous edits. We propose Background Consistency Guidance that leverages memorized latents to maintain scene coherence and Multi-Query Disentanglement in cross-attention that ensures natural adaptation to existing content. To evaluate our method, we present a new benchmark dataset incorporating semantic alignment metrics and interactive editing scenarios. Through comprehensive experiments, we demonstrate superior performance in iterative image editing tasks with minimal user effort, requiring only rough masks while maintaining high-quality results throughout multiple editing steps.

Summary

AI-Generated Summary

PDF181May 5, 2025