ChatPaper.aiChatPaper

CannyEdit: Selectieve Canny-controle en dubbele prompt-begeleiding voor trainingsvrije beeldbewerking

CannyEdit: Selective Canny Control and Dual-Prompt Guidance for Training-Free Image Editing

August 9, 2025
Auteurs: Weiyan Xie, Han Gao, Didan Deng, Kaican Li, April Hua Liu, Yongxiang Huang, Nevin L. Zhang
cs.AI

Samenvatting

Recente vooruitgang in tekst-naar-beeld (T2I) modellen heeft training-vrije regionale beeldbewerking mogelijk gemaakt door gebruik te maken van de generatieve voorkennis van foundation-modellen. Bestaande methoden hebben echter moeite om een balans te vinden tussen tekstnaleving in bewerkte gebieden, contextgetrouwheid in onbewerkte gebieden en naadloze integratie van bewerkingen. Wij introduceren CannyEdit, een nieuw training-vrij raamwerk dat deze uitdagingen aanpakt via twee belangrijke innovaties: (1) Selective Canny Control, dat de structurele begeleiding van Canny ControlNet maskeert in door de gebruiker gespecificeerde bewerkbare gebieden, terwijl details van de bronbeelden strikt worden behouden in onbewerkte gebieden via inversie-fase ControlNet-informatiebehoud. Dit maakt precieze, tekstgestuurde bewerkingen mogelijk zonder de contextuele integriteit aan te tasten. (2) Dual-Prompt Guidance, dat lokale prompts voor object-specifieke bewerkingen combineert met een globaal doelprompt om samenhangende scène-interacties te behouden. Bij real-world beeldbewerkingstaken (toevoeging, vervanging, verwijdering) presteert CannyEdit beter dan eerdere methoden zoals KV-Edit, met een verbetering van 2,93 tot 10,49 procent in de balans tussen tekstnaleving en contextgetrouwheid. Wat betreft de naadloosheid van bewerkingen, tonen gebruikersstudies aan dat slechts 49,2 procent van de algemene gebruikers en 42,0 procent van AIGC-experts de resultaten van CannyEdit als AI-bewerkt identificeerden wanneer deze werden gepaard met echte beelden zonder bewerkingen, tegenover 76,08 tot 89,09 procent voor concurrerende methoden.
English
Recent advances in text-to-image (T2I) models have enabled training-free regional image editing by leveraging the generative priors of foundation models. However, existing methods struggle to balance text adherence in edited regions, context fidelity in unedited areas, and seamless integration of edits. We introduce CannyEdit, a novel training-free framework that addresses these challenges through two key innovations: (1) Selective Canny Control, which masks the structural guidance of Canny ControlNet in user-specified editable regions while strictly preserving details of the source images in unedited areas via inversion-phase ControlNet information retention. This enables precise, text-driven edits without compromising contextual integrity. (2) Dual-Prompt Guidance, which combines local prompts for object-specific edits with a global target prompt to maintain coherent scene interactions. On real-world image editing tasks (addition, replacement, removal), CannyEdit outperforms prior methods like KV-Edit, achieving a 2.93 to 10.49 percent improvement in the balance of text adherence and context fidelity. In terms of editing seamlessness, user studies reveal only 49.2 percent of general users and 42.0 percent of AIGC experts identified CannyEdit's results as AI-edited when paired with real images without edits, versus 76.08 to 89.09 percent for competitor methods.
PDF75August 14, 2025