CannyEdit: Селективное управление Canny и двойное управление через подсказки для редактирования изображений без обучения
CannyEdit: Selective Canny Control and Dual-Prompt Guidance for Training-Free Image Editing
August 9, 2025
Авторы: Weiyan Xie, Han Gao, Didan Deng, Kaican Li, April Hua Liu, Yongxiang Huang, Nevin L. Zhang
cs.AI
Аннотация
Последние достижения в моделях преобразования текста в изображение (T2I) позволили осуществлять обучение без предварительной подготовки для регионального редактирования изображений, используя генеративные априорные знания базовых моделей. Однако существующие методы сталкиваются с трудностями в балансировании соответствия тексту в редактируемых областях, сохранении контекста в неизмененных участках и бесшовной интеграции изменений. Мы представляем CannyEdit, новый фреймворк без необходимости обучения, который решает эти проблемы с помощью двух ключевых инноваций: (1) Селективное управление Canny, которое маскирует структурное руководство Canny ControlNet в указанных пользователем редактируемых областях, строго сохраняя детали исходных изображений в неизмененных участках за счет удержания информации ControlNet на этапе инверсии. Это позволяет осуществлять точные, управляемые текстом изменения без ущерба для целостности контекста. (2) Двойное управление подсказками, которое сочетает локальные подсказки для редактирования конкретных объектов с глобальной целевой подсказкой для поддержания согласованных взаимодействий в сцене. В задачах редактирования реальных изображений (добавление, замена, удаление) CannyEdit превосходит предыдущие методы, такие как KV-Edit, демонстрируя улучшение от 2.93 до 10.49 процентов в балансе соответствия тексту и сохранения контекста. В плане бесшовности редактирования пользовательские исследования показывают, что только 49.2 процента обычных пользователей и 42.0 процента экспертов в области генеративного ИИ идентифицировали результаты CannyEdit как обработанные ИИ при сравнении с реальными изображениями без изменений, в то время как для конкурирующих методов этот показатель составил от 76.08 до 89.09 процентов.
English
Recent advances in text-to-image (T2I) models have enabled training-free
regional image editing by leveraging the generative priors of foundation
models. However, existing methods struggle to balance text adherence in edited
regions, context fidelity in unedited areas, and seamless integration of edits.
We introduce CannyEdit, a novel training-free framework that addresses these
challenges through two key innovations: (1) Selective Canny Control, which
masks the structural guidance of Canny ControlNet in user-specified editable
regions while strictly preserving details of the source images in unedited
areas via inversion-phase ControlNet information retention. This enables
precise, text-driven edits without compromising contextual integrity. (2)
Dual-Prompt Guidance, which combines local prompts for object-specific edits
with a global target prompt to maintain coherent scene interactions. On
real-world image editing tasks (addition, replacement, removal), CannyEdit
outperforms prior methods like KV-Edit, achieving a 2.93 to 10.49 percent
improvement in the balance of text adherence and context fidelity. In terms of
editing seamlessness, user studies reveal only 49.2 percent of general users
and 42.0 percent of AIGC experts identified CannyEdit's results as AI-edited
when paired with real images without edits, versus 76.08 to 89.09 percent for
competitor methods.