Matting Alles

Samenvatting

In dit artikel presenteren we het Matting Anything Model (MAM), een efficiënt en veelzijdig raamwerk voor het schatten van de alfa-matte van elke instantie in een afbeelding met flexibele en interactieve visuele of linguïstische gebruikersprompts. MAM biedt verschillende belangrijke voordelen ten opzichte van eerdere gespecialiseerde beeldmatting-netwerken: (i) MAM is in staat om verschillende soorten beeldmatting aan te pakken, waaronder semantische, instantie- en verwijzende beeldmatting met slechts één model; (ii) MAM maakt gebruik van de kenmerkkaarten van het Segment Anything Model (SAM) en neemt een lichtgewicht Mask-to-Matte (M2M)-module over om de alfa-matte te voorspellen via iteratieve verfijning, wat slechts 2,7 miljoen trainbare parameters heeft. (iii) Door SAM te integreren, vereenvoudigt MAM de gebruikersinterventie die nodig is voor het interactieve gebruik van beeldmatting van de trimap naar de box, punt of tekstprompt. We evalueren de prestaties van MAM op verschillende beeldmatting-benchmarks, en de experimentele resultaten tonen aan dat MAM vergelijkbare prestaties behaalt met de state-of-the-art gespecialiseerde beeldmatting-modellen onder verschillende metrieken op elke benchmark. Over het algemeen toont MAM een superieure generalisatiecapaciteit en kan het effectief verschillende beeldmatting-taken aanpakken met minder parameters, waardoor het een praktische oplossing is voor geünificeerde beeldmatting. Onze code en modellen zijn open-source beschikbaar op https://github.com/SHI-Labs/Matting-Anything.

English

In this paper, we propose the Matting Anything Model (MAM), an efficient and versatile framework for estimating the alpha matte of any instance in an image with flexible and interactive visual or linguistic user prompt guidance. MAM offers several significant advantages over previous specialized image matting networks: (i) MAM is capable of dealing with various types of image matting, including semantic, instance, and referring image matting with only a single model; (ii) MAM leverages the feature maps from the Segment Anything Model (SAM) and adopts a lightweight Mask-to-Matte (M2M) module to predict the alpha matte through iterative refinement, which has only 2.7 million trainable parameters. (iii) By incorporating SAM, MAM simplifies the user intervention required for the interactive use of image matting from the trimap to the box, point, or text prompt. We evaluate the performance of MAM on various image matting benchmarks, and the experimental results demonstrate that MAM achieves comparable performance to the state-of-the-art specialized image matting models under different metrics on each benchmark. Overall, MAM shows superior generalization ability and can effectively handle various image matting tasks with fewer parameters, making it a practical solution for unified image matting. Our code and models are open-sourced at https://github.com/SHI-Labs/Matting-Anything.