ChatPaper.aiChatPaper

CannyEdit: 학습 없이 이미지 편집을 위한 선택적 Canny 제어 및 이중 프롬프트 가이던스

CannyEdit: Selective Canny Control and Dual-Prompt Guidance for Training-Free Image Editing

August 9, 2025
저자: Weiyan Xie, Han Gao, Didan Deng, Kaican Li, April Hua Liu, Yongxiang Huang, Nevin L. Zhang
cs.AI

초록

최근 텍스트-이미지(T2I) 모델의 발전으로 인해 파운데이션 모델의 생성적 사전 정보를 활용하여 학습 없이도 지역적 이미지 편집이 가능해졌습니다. 그러나 기존 방법들은 편집된 영역에서의 텍스트 준수, 편집되지 않은 영역에서의 문맥 충실도, 그리고 편집의 자연스러운 통합 간의 균형을 맞추는 데 어려움을 겪고 있습니다. 본 연구에서는 이러한 문제를 해결하기 위해 두 가지 주요 혁신을 도입한 새로운 학습 없는 프레임워크인 CannyEdit을 소개합니다: (1) 선택적 캐니 제어(Selective Canny Control)는 사용자가 지정한 편집 가능한 영역에서 Canny ControlNet의 구조적 지도를 마스킹하면서, 반전 단계의 ControlNet 정보 보존을 통해 편집되지 않은 영역의 소스 이미지 세부 사항을 엄격히 보존합니다. 이를 통해 문맥적 무결성을 훼손하지 않으면서도 정확한 텍스트 기반 편집이 가능합니다. (2) 이중 프롬프트 지도(Dual-Prompt Guidance)는 객체 특정 편집을 위한 지역적 프롬프트와 일관된 장면 상호작용을 유지하기 위한 전역적 목표 프롬프트를 결합합니다. 실제 이미지 편집 작업(추가, 교체, 제거)에서 CannyEdit은 KV-Edit과 같은 기존 방법을 능가하며, 텍스트 준수와 문맥 충실도의 균형에서 2.93%에서 10.49%의 개선을 달성했습니다. 편집의 자연스러움 측면에서, 사용자 연구 결과 일반 사용자의 49.2%와 AIGC 전문가의 42.0%만이 편집되지 않은 실제 이미지와 함께 제공된 CannyEdit 결과를 AI 편집으로 식별한 반면, 경쟁 방법들은 76.08%에서 89.09%로 나타났습니다.
English
Recent advances in text-to-image (T2I) models have enabled training-free regional image editing by leveraging the generative priors of foundation models. However, existing methods struggle to balance text adherence in edited regions, context fidelity in unedited areas, and seamless integration of edits. We introduce CannyEdit, a novel training-free framework that addresses these challenges through two key innovations: (1) Selective Canny Control, which masks the structural guidance of Canny ControlNet in user-specified editable regions while strictly preserving details of the source images in unedited areas via inversion-phase ControlNet information retention. This enables precise, text-driven edits without compromising contextual integrity. (2) Dual-Prompt Guidance, which combines local prompts for object-specific edits with a global target prompt to maintain coherent scene interactions. On real-world image editing tasks (addition, replacement, removal), CannyEdit outperforms prior methods like KV-Edit, achieving a 2.93 to 10.49 percent improvement in the balance of text adherence and context fidelity. In terms of editing seamlessness, user studies reveal only 49.2 percent of general users and 42.0 percent of AIGC experts identified CannyEdit's results as AI-edited when paired with real images without edits, versus 76.08 to 89.09 percent for competitor methods.
PDF35August 14, 2025