ChatPaper.aiChatPaper

CannyEdit: Controle Seletivo de Canny e Orientação de Duplo-Prompt para Edição de Imagens sem Treinamento

CannyEdit: Selective Canny Control and Dual-Prompt Guidance for Training-Free Image Editing

August 9, 2025
Autores: Weiyan Xie, Han Gao, Didan Deng, Kaican Li, April Hua Liu, Yongxiang Huang, Nevin L. Zhang
cs.AI

Resumo

Avanços recentes em modelos de texto para imagem (T2I) permitiram a edição regional de imagens sem necessidade de treinamento, aproveitando os priors generativos de modelos de base. No entanto, os métodos existentes lutam para equilibrar a aderência ao texto nas regiões editadas, a fidelidade ao contexto em áreas não editadas e a integração perfeita das edições. Apresentamos o CannyEdit, uma nova estrutura sem treinamento que aborda esses desafios por meio de duas inovações principais: (1) Controle Seletivo Canny, que mascara a orientação estrutural do Canny ControlNet em regiões editáveis especificadas pelo usuário, enquanto preserva estritamente os detalhes das imagens originais em áreas não editadas por meio da retenção de informações do ControlNet na fase de inversão. Isso permite edições precisas e guiadas por texto sem comprometer a integridade contextual. (2) Orientação de Duplo Prompt, que combina prompts locais para edições específicas de objetos com um prompt global de destino para manter interações coerentes na cena. Em tarefas de edição de imagens do mundo real (adição, substituição, remoção), o CannyEdit supera métodos anteriores como o KV-Edit, alcançando uma melhoria de 2,93 a 10,49 por cento no equilíbrio entre aderência ao texto e fidelidade ao contexto. Em termos de perfeição na edição, estudos com usuários revelam que apenas 49,2 por cento dos usuários gerais e 42,0 por cento dos especialistas em AIGC identificaram os resultados do CannyEdit como editados por IA quando comparados com imagens reais sem edições, contra 76,08 a 89,09 por cento para métodos concorrentes.
English
Recent advances in text-to-image (T2I) models have enabled training-free regional image editing by leveraging the generative priors of foundation models. However, existing methods struggle to balance text adherence in edited regions, context fidelity in unedited areas, and seamless integration of edits. We introduce CannyEdit, a novel training-free framework that addresses these challenges through two key innovations: (1) Selective Canny Control, which masks the structural guidance of Canny ControlNet in user-specified editable regions while strictly preserving details of the source images in unedited areas via inversion-phase ControlNet information retention. This enables precise, text-driven edits without compromising contextual integrity. (2) Dual-Prompt Guidance, which combines local prompts for object-specific edits with a global target prompt to maintain coherent scene interactions. On real-world image editing tasks (addition, replacement, removal), CannyEdit outperforms prior methods like KV-Edit, achieving a 2.93 to 10.49 percent improvement in the balance of text adherence and context fidelity. In terms of editing seamlessness, user studies reveal only 49.2 percent of general users and 42.0 percent of AIGC experts identified CannyEdit's results as AI-edited when paired with real images without edits, versus 76.08 to 89.09 percent for competitor methods.
PDF65August 14, 2025