マット処理の汎用化
Matting Anything
June 8, 2023
著者: Jiachen Li, Jitesh Jain, Humphrey Shi
cs.AI
要旨
本論文では、Matting Anything Model(MAM)を提案する。これは、柔軟かつインタラクティブな視覚的または言語的なユーザープロンプトに基づいて、画像内の任意のインスタンスのアルファマットを推定するための効率的で汎用的なフレームワークである。MAMは、従来の専門的な画像マット推定ネットワークに対して以下の重要な利点を有する:(i)MAMは、セマンティックマット推定、インスタンスマット推定、参照画像マット推定など、さまざまなタイプの画像マット推定を単一のモデルで処理可能である。(ii)MAMは、Segment Anything Model(SAM)の特徴マップを活用し、軽量なMask-to-Matte(M2M)モジュールを採用して、反復的なリファインメントを通じてアルファマットを予測する。このモジュールは、わずか270万の学習可能なパラメータしか持たない。(iii)SAMを組み込むことで、MAMは、画像マット推定のインタラクティブな使用に必要なユーザー介入を、トリマップからボックス、ポイント、またはテキストプロンプトへと簡素化する。我々は、MAMの性能をさまざまな画像マット推定ベンチマークで評価し、実験結果は、MAMが各ベンチマークにおいて異なるメトリクスで最先端の専門的な画像マット推定モデルと同等の性能を達成することを示している。全体として、MAMは優れた汎化能力を示し、より少ないパラメータでさまざまな画像マット推定タスクを効果的に処理できるため、統一された画像マット推定の実用的なソリューションとなる。我々のコードとモデルは、https://github.com/SHI-Labs/Matting-Anything で公開されている。
English
In this paper, we propose the Matting Anything Model (MAM), an efficient and
versatile framework for estimating the alpha matte of any instance in an image
with flexible and interactive visual or linguistic user prompt guidance. MAM
offers several significant advantages over previous specialized image matting
networks: (i) MAM is capable of dealing with various types of image matting,
including semantic, instance, and referring image matting with only a single
model; (ii) MAM leverages the feature maps from the Segment Anything Model
(SAM) and adopts a lightweight Mask-to-Matte (M2M) module to predict the alpha
matte through iterative refinement, which has only 2.7 million trainable
parameters. (iii) By incorporating SAM, MAM simplifies the user intervention
required for the interactive use of image matting from the trimap to the box,
point, or text prompt. We evaluate the performance of MAM on various image
matting benchmarks, and the experimental results demonstrate that MAM achieves
comparable performance to the state-of-the-art specialized image matting models
under different metrics on each benchmark. Overall, MAM shows superior
generalization ability and can effectively handle various image matting tasks
with fewer parameters, making it a practical solution for unified image
matting. Our code and models are open-sourced at
https://github.com/SHI-Labs/Matting-Anything.