CannyEdit : Contrôle sélectif de Canny et guidage à double invite pour l'édition d'images sans apprentissage
CannyEdit: Selective Canny Control and Dual-Prompt Guidance for Training-Free Image Editing
August 9, 2025
papers.authors: Weiyan Xie, Han Gao, Didan Deng, Kaican Li, April Hua Liu, Yongxiang Huang, Nevin L. Zhang
cs.AI
papers.abstract
Les récentes avancées dans les modèles de génération d'images à partir de texte (T2I) ont permis l'édition régionale d'images sans apprentissage en exploitant les connaissances génératives des modèles de base. Cependant, les méthodes existantes peinent à équilibrer l'adhésion au texte dans les zones éditées, la fidélité contextuelle dans les zones non modifiées et l'intégration harmonieuse des modifications. Nous présentons CannyEdit, un nouveau cadre sans apprentissage qui relève ces défis grâce à deux innovations clés : (1) Le Contrôle Canny Sélectif, qui masque le guidage structurel du Canny ControlNet dans les zones éditables spécifiées par l'utilisateur tout en préservant strictement les détails des images sources dans les zones non modifiées via la rétention d'information du ControlNet en phase d'inversion. Cela permet des modifications précises guidées par le texte sans compromettre l'intégrité contextuelle. (2) Le Guidage Double-Prompt, qui combine des prompts locaux pour des modifications spécifiques à des objets avec un prompt global cible pour maintenir des interactions cohérentes dans la scène. Sur des tâches d'édition d'images du monde réel (ajout, remplacement, suppression), CannyEdit surpasse les méthodes précédentes comme KV-Edit, avec une amélioration de 2,93 à 10,49 pour cent dans l'équilibre entre l'adhésion au texte et la fidélité contextuelle. En termes de fluidité des modifications, des études utilisateurs révèlent que seulement 49,2 pour cent des utilisateurs généraux et 42,0 pour cent des experts en AIGC ont identifié les résultats de CannyEdit comme étant édités par IA lorsqu'ils étaient associés à des images réelles sans modifications, contre 76,08 à 89,09 pour cent pour les méthodes concurrentes.
English
Recent advances in text-to-image (T2I) models have enabled training-free
regional image editing by leveraging the generative priors of foundation
models. However, existing methods struggle to balance text adherence in edited
regions, context fidelity in unedited areas, and seamless integration of edits.
We introduce CannyEdit, a novel training-free framework that addresses these
challenges through two key innovations: (1) Selective Canny Control, which
masks the structural guidance of Canny ControlNet in user-specified editable
regions while strictly preserving details of the source images in unedited
areas via inversion-phase ControlNet information retention. This enables
precise, text-driven edits without compromising contextual integrity. (2)
Dual-Prompt Guidance, which combines local prompts for object-specific edits
with a global target prompt to maintain coherent scene interactions. On
real-world image editing tasks (addition, replacement, removal), CannyEdit
outperforms prior methods like KV-Edit, achieving a 2.93 to 10.49 percent
improvement in the balance of text adherence and context fidelity. In terms of
editing seamlessness, user studies reveal only 49.2 percent of general users
and 42.0 percent of AIGC experts identified CannyEdit's results as AI-edited
when paired with real images without edits, versus 76.08 to 89.09 percent for
competitor methods.