ChatPaper.aiChatPaper

CannyEdit: Selektive Canny-Steuerung und Dual-Prompt-Führung für trainingsfreie Bildbearbeitung

CannyEdit: Selective Canny Control and Dual-Prompt Guidance for Training-Free Image Editing

August 9, 2025
papers.authors: Weiyan Xie, Han Gao, Didan Deng, Kaican Li, April Hua Liu, Yongxiang Huang, Nevin L. Zhang
cs.AI

papers.abstract

Jüngste Fortschritte in Text-zu-Bild (T2I)-Modellen haben das trainierungsfreie regionale Bildbearbeiten ermöglicht, indem die generativen Prioritäten von Foundation-Modellen genutzt werden. Allerdings haben bestehende Methoden Schwierigkeiten, die Texttreue in bearbeiteten Bereichen, die Kontexttreue in unveränderten Bereichen und die nahtlose Integration von Bearbeitungen in Einklang zu bringen. Wir stellen CannyEdit vor, ein neuartiges trainierungsfreies Framework, das diese Herausforderungen durch zwei Schlüsselinnovationen adressiert: (1) Selektive Canny-Steuerung, welche die strukturelle Führung von Canny ControlNet in benutzerdefinierten bearbeitbaren Bereichen maskiert, während die Details der Quellbilder in unveränderten Bereichen durch die Inversionsphasen-Informationen von ControlNet strikt bewahrt werden. Dies ermöglicht präzise, textgesteuerte Bearbeitungen ohne Beeinträchtigung der kontextuellen Integrität. (2) Dual-Prompt-Führung, die lokale Prompts für objektspezifische Bearbeitungen mit einem globalen Zielprompt kombiniert, um kohärente Szeneninteraktionen zu erhalten. Bei realen Bildbearbeitungsaufgaben (Hinzufügen, Ersetzen, Entfernen) übertrifft CannyEdit vorherige Methoden wie KV-Edit und erreicht eine Verbesserung von 2,93 bis 10,49 Prozent in der Balance zwischen Texttreue und Kontexttreue. In Bezug auf die Nahtlosigkeit der Bearbeitungen zeigen Benutzerstudien, dass nur 49,2 Prozent der allgemeinen Benutzer und 42,0 Prozent der AIGC-Experten die Ergebnisse von CannyEdit als KI-bearbeitet identifizierten, wenn sie mit unveränderten realen Bildern gepaart wurden, im Vergleich zu 76,08 bis 89,09 Prozent bei konkurrierenden Methoden.
English
Recent advances in text-to-image (T2I) models have enabled training-free regional image editing by leveraging the generative priors of foundation models. However, existing methods struggle to balance text adherence in edited regions, context fidelity in unedited areas, and seamless integration of edits. We introduce CannyEdit, a novel training-free framework that addresses these challenges through two key innovations: (1) Selective Canny Control, which masks the structural guidance of Canny ControlNet in user-specified editable regions while strictly preserving details of the source images in unedited areas via inversion-phase ControlNet information retention. This enables precise, text-driven edits without compromising contextual integrity. (2) Dual-Prompt Guidance, which combines local prompts for object-specific edits with a global target prompt to maintain coherent scene interactions. On real-world image editing tasks (addition, replacement, removal), CannyEdit outperforms prior methods like KV-Edit, achieving a 2.93 to 10.49 percent improvement in the balance of text adherence and context fidelity. In terms of editing seamlessness, user studies reveal only 49.2 percent of general users and 42.0 percent of AIGC experts identified CannyEdit's results as AI-edited when paired with real images without edits, versus 76.08 to 89.09 percent for competitor methods.
PDF35August 14, 2025