ChatPaper.aiChatPaper

Click2Mask: 動的マスク生成を用いたローカル編集

Click2Mask: Local Editing with Dynamic Mask Generation

September 12, 2024
著者: Omer Regev, Omri Avrahami, Dani Lischinski
cs.AI

要旨

最近の生成モデルの進歩により、画像生成や編集が革新され、これらのタスクが専門外の人々にもアクセス可能になりました。本論文では、特に局所画像編集に焦点を当て、特に緩く指定された領域に新しいコンテンツを追加するタスクに焦点を当てます。既存の方法は、しばしば正確なマスクや位置の詳細な説明が必要であり、これは手間がかかりエラーを起こしやすいです。本研究では、単一の参照点(コンテンツの説明に加えて)のみを必要とする画期的なアプローチであるClick2Maskを提案します。このアプローチでは、Blended Latent Diffusion(BLD)プロセス中に、マスクされたCLIPベースの意味損失によって誘導された点の周囲にマスクが動的に成長します。Click2Maskは、セグメンテーションベースやファインチューニングに依存する方法の制約を超え、よりユーザーフレンドリーで文脈に即した解決策を提供します。実験により、Click2Maskがユーザーの努力を最小限に抑え、人間の判断と自動メトリクスの両方において、SoTA方法に比べて競争力のあるまたは優れた局所画像操作の結果を提供することが示されました。主な貢献は、ユーザー入力の簡素化、既存のセグメントに制約されない自由なオブジェクトの追加の可能性、および他の編集方法内での動的マスクアプローチの統合可能性です。
English
Recent advancements in generative models have revolutionized image generation and editing, making these tasks accessible to non-experts. This paper focuses on local image editing, particularly the task of adding new content to a loosely specified area. Existing methods often require a precise mask or a detailed description of the location, which can be cumbersome and prone to errors. We propose Click2Mask, a novel approach that simplifies the local editing process by requiring only a single point of reference (in addition to the content description). A mask is dynamically grown around this point during a Blended Latent Diffusion (BLD) process, guided by a masked CLIP-based semantic loss. Click2Mask surpasses the limitations of segmentation-based and fine-tuning dependent methods, offering a more user-friendly and contextually accurate solution. Our experiments demonstrate that Click2Mask not only minimizes user effort but also delivers competitive or superior local image manipulation results compared to SoTA methods, according to both human judgement and automatic metrics. Key contributions include the simplification of user input, the ability to freely add objects unconstrained by existing segments, and the integration potential of our dynamic mask approach within other editing methods.

Summary

AI-Generated Summary

PDF63November 16, 2024