Click2Mask: Локальное редактирование с генерацией динамической маски.
Click2Mask: Local Editing with Dynamic Mask Generation
September 12, 2024
Авторы: Omer Regev, Omri Avrahami, Dani Lischinski
cs.AI
Аннотация
Недавние достижения в области генеративных моделей революционизировали генерацию и редактирование изображений, делая эти задачи доступными для неспециалистов. В данной статье рассматривается локальное редактирование изображений, в частности задача добавления нового контента в нечетко определенную область. Существующие методы часто требуют точной маски или подробного описания местоположения, что может быть неудобным и приводить к ошибкам. Мы предлагаем Click2Mask, новый подход, который упрощает процесс локального редактирования, требуя только одной точки отсчета (помимо описания контента). Маска динамически расширяется вокруг этой точки во время процесса Blended Latent Diffusion (BLD), управляемого маскированным семантическим потерей на основе CLIP. Click2Mask превосходит ограничения методов, основанных на сегментации, и методов, зависящих от донастройки, предлагая более удобное для пользователя и контекстуально точное решение. Наши эксперименты показывают, что Click2Mask не только минимизирует усилия пользователя, но также обеспечивает конкурентоспособные или превосходящие результаты локального редактирования изображений по сравнению с методами SoTA, как по мнению людей, так и по автоматическим метрикам. Ключевые вклады включают упрощение пользовательского ввода, возможность свободного добавления объектов без ограничений существующими сегментами, а также потенциал интеграции нашего динамического подхода к маскированию в другие методы редактирования.
English
Recent advancements in generative models have revolutionized image generation
and editing, making these tasks accessible to non-experts. This paper focuses
on local image editing, particularly the task of adding new content to a
loosely specified area. Existing methods often require a precise mask or a
detailed description of the location, which can be cumbersome and prone to
errors. We propose Click2Mask, a novel approach that simplifies the local
editing process by requiring only a single point of reference (in addition to
the content description). A mask is dynamically grown around this point during
a Blended Latent Diffusion (BLD) process, guided by a masked CLIP-based
semantic loss. Click2Mask surpasses the limitations of segmentation-based and
fine-tuning dependent methods, offering a more user-friendly and contextually
accurate solution. Our experiments demonstrate that Click2Mask not only
minimizes user effort but also delivers competitive or superior local image
manipulation results compared to SoTA methods, according to both human
judgement and automatic metrics. Key contributions include the simplification
of user input, the ability to freely add objects unconstrained by existing
segments, and the integration potential of our dynamic mask approach within
other editing methods.Summary
AI-Generated Summary