Click2Mask: Edição Local com Geração Dinâmica de Máscara
Click2Mask: Local Editing with Dynamic Mask Generation
September 12, 2024
Autores: Omer Regev, Omri Avrahami, Dani Lischinski
cs.AI
Resumo
Os avanços recentes em modelos generativos revolucionaram a geração e edição de imagens, tornando essas tarefas acessíveis a não especialistas. Este artigo concentra-se na edição local de imagens, particularmente na tarefa de adicionar novo conteúdo a uma área vagamente especificada. Os métodos existentes frequentemente exigem uma máscara precisa ou uma descrição detalhada da localização, o que pode ser trabalhoso e propenso a erros. Propomos o Click2Mask, uma abordagem inovadora que simplifica o processo de edição local, exigindo apenas um único ponto de referência (além da descrição do conteúdo). Uma máscara é crescida dinamicamente ao redor deste ponto durante um processo de Difusão Latente Misturada (BLD), guiada por uma perda semântica baseada em CLIP mascarado. O Click2Mask supera as limitações de métodos baseados em segmentação e dependentes de ajuste fino, oferecendo uma solução mais amigável ao usuário e contextualmente precisa. Nossos experimentos demonstram que o Click2Mask não apenas minimiza o esforço do usuário, mas também oferece resultados de manipulação de imagem local competitivos ou superiores em comparação com os métodos de Estado da Arte, de acordo com tanto a avaliação humana quanto as métricas automáticas. As contribuições-chave incluem a simplificação da entrada do usuário, a capacidade de adicionar livremente objetos sem restrições por segmentos existentes e o potencial de integração de nossa abordagem de máscara dinâmica em outros métodos de edição.
English
Recent advancements in generative models have revolutionized image generation
and editing, making these tasks accessible to non-experts. This paper focuses
on local image editing, particularly the task of adding new content to a
loosely specified area. Existing methods often require a precise mask or a
detailed description of the location, which can be cumbersome and prone to
errors. We propose Click2Mask, a novel approach that simplifies the local
editing process by requiring only a single point of reference (in addition to
the content description). A mask is dynamically grown around this point during
a Blended Latent Diffusion (BLD) process, guided by a masked CLIP-based
semantic loss. Click2Mask surpasses the limitations of segmentation-based and
fine-tuning dependent methods, offering a more user-friendly and contextually
accurate solution. Our experiments demonstrate that Click2Mask not only
minimizes user effort but also delivers competitive or superior local image
manipulation results compared to SoTA methods, according to both human
judgement and automatic metrics. Key contributions include the simplification
of user input, the ability to freely add objects unconstrained by existing
segments, and the integration potential of our dynamic mask approach within
other editing methods.Summary
AI-Generated Summary