ChatPaper.aiChatPaper

CannyEdit: Control Selectivo de Canny y Guía de Doble Indicación para la Edición de Imágenes sin Entrenamiento

CannyEdit: Selective Canny Control and Dual-Prompt Guidance for Training-Free Image Editing

August 9, 2025
Autores: Weiyan Xie, Han Gao, Didan Deng, Kaican Li, April Hua Liu, Yongxiang Huang, Nevin L. Zhang
cs.AI

Resumen

Los recientes avances en los modelos de texto a imagen (T2I) han permitido la edición regional de imágenes sin necesidad de entrenamiento, aprovechando los priors generativos de los modelos base. Sin embargo, los métodos existentes luchan por equilibrar la adherencia al texto en las regiones editadas, la fidelidad del contexto en las áreas no editadas y la integración fluida de las ediciones. Presentamos CannyEdit, un marco novedoso sin entrenamiento que aborda estos desafíos a través de dos innovaciones clave: (1) Control Canny Selectivo, que enmascara la guía estructural de Canny ControlNet en las regiones editables especificadas por el usuario, mientras preserva estrictamente los detalles de las imágenes originales en las áreas no editadas mediante la retención de información de ControlNet en la fase de inversión. Esto permite ediciones precisas impulsadas por texto sin comprometer la integridad contextual. (2) Guía de Doble Prompt, que combina prompts locales para ediciones específicas de objetos con un prompt global objetivo para mantener interacciones coherentes en la escena. En tareas de edición de imágenes del mundo real (adición, reemplazo, eliminación), CannyEdit supera a métodos anteriores como KV-Edit, logrando una mejora del 2.93 al 10.49 por ciento en el equilibrio entre adherencia al texto y fidelidad del contexto. En términos de fluidez en la edición, estudios de usuario revelan que solo el 49.2 por ciento de los usuarios generales y el 42.0 por ciento de los expertos en AIGC identificaron los resultados de CannyEdit como editados por IA cuando se compararon con imágenes reales sin editar, frente al 76.08 al 89.09 por ciento para los métodos competidores.
English
Recent advances in text-to-image (T2I) models have enabled training-free regional image editing by leveraging the generative priors of foundation models. However, existing methods struggle to balance text adherence in edited regions, context fidelity in unedited areas, and seamless integration of edits. We introduce CannyEdit, a novel training-free framework that addresses these challenges through two key innovations: (1) Selective Canny Control, which masks the structural guidance of Canny ControlNet in user-specified editable regions while strictly preserving details of the source images in unedited areas via inversion-phase ControlNet information retention. This enables precise, text-driven edits without compromising contextual integrity. (2) Dual-Prompt Guidance, which combines local prompts for object-specific edits with a global target prompt to maintain coherent scene interactions. On real-world image editing tasks (addition, replacement, removal), CannyEdit outperforms prior methods like KV-Edit, achieving a 2.93 to 10.49 percent improvement in the balance of text adherence and context fidelity. In terms of editing seamlessness, user studies reveal only 49.2 percent of general users and 42.0 percent of AIGC experts identified CannyEdit's results as AI-edited when paired with real images without edits, versus 76.08 to 89.09 percent for competitor methods.
PDF35August 14, 2025