계층별 메모리를 활용한 이미지 생성의 편집성 향상
Improving Editability in Image Generation with Layer-wise Memory
May 2, 2025
저자: Daneul Kim, Jaeah Lee, Jaesik Park
cs.AI
초록
대부분의 실제 이미지 편집 작업은 원하는 결과를 얻기 위해 여러 번의 순차적 편집이 필요합니다. 현재의 편집 접근 방식은 주로 단일 객체 수정을 위해 설계되어 있어, 순차적 편집에서 특히 이전 편집 내용을 유지하면서 새로운 객체를 기존 콘텐츠에 자연스럽게 통합하는 데 어려움을 겪습니다. 이러한 한계는 여러 객체를 수정하면서도 그들의 맥락적 관계를 보존해야 하는 복잡한 편집 시나리오에서 상당한 장애물로 작용합니다. 우리는 이 근본적인 문제를 해결하기 위해 두 가지 주요 제안을 제시합니다: 기존 콘텐츠를 보존하면서 새로운 요소를 자연스럽게 통합할 수 있는 대략적인 마스크 입력을 가능하게 하고, 여러 수정 작업에서 일관된 편집을 지원하는 것입니다. 우리의 프레임워크는 이전 편집에서의 잠재 표현과 프롬프트 임베딩을 저장하는 계층적 메모리를 통해 이를 달성합니다. 우리는 장면 일관성을 유지하기 위해 기억된 잠재 표현을 활용하는 배경 일관성 가이드와 기존 콘텐츠에 자연스럽게 적응할 수 있도록 하는 크로스-어텐션의 다중 쿼리 분리를 제안합니다. 우리의 방법을 평가하기 위해, 의미론적 정렬 메트릭과 인터랙티브 편집 시나리오를 포함한 새로운 벤치마크 데이터셋을 제시합니다. 포괄적인 실험을 통해, 우리는 최소한의 사용자 노력으로 반복적인 이미지 편집 작업에서 우수한 성능을 보여주며, 여러 편집 단계를 거치면서도 고품질의 결과를 유지하면서 대략적인 마스크만 요구하는 것을 입증합니다.
English
Most real-world image editing tasks require multiple sequential edits to
achieve desired results. Current editing approaches, primarily designed for
single-object modifications, struggle with sequential editing: especially with
maintaining previous edits along with adapting new objects naturally into the
existing content. These limitations significantly hinder complex editing
scenarios where multiple objects need to be modified while preserving their
contextual relationships. We address this fundamental challenge through two key
proposals: enabling rough mask inputs that preserve existing content while
naturally integrating new elements and supporting consistent editing across
multiple modifications. Our framework achieves this through layer-wise memory,
which stores latent representations and prompt embeddings from previous edits.
We propose Background Consistency Guidance that leverages memorized latents to
maintain scene coherence and Multi-Query Disentanglement in cross-attention
that ensures natural adaptation to existing content. To evaluate our method, we
present a new benchmark dataset incorporating semantic alignment metrics and
interactive editing scenarios. Through comprehensive experiments, we
demonstrate superior performance in iterative image editing tasks with minimal
user effort, requiring only rough masks while maintaining high-quality results
throughout multiple editing steps.Summary
AI-Generated Summary