Matting Tout
Matting Anything
June 8, 2023
Auteurs: Jiachen Li, Jitesh Jain, Humphrey Shi
cs.AI
Résumé
Dans cet article, nous proposons le Matting Anything Model (MAM), un cadre efficace et polyvalent pour estimer la matte alpha de toute instance dans une image avec une guidance interactive et flexible via des prompts visuels ou linguistiques. MAM présente plusieurs avantages significatifs par rapport aux réseaux spécialisés précédents en matting d'images : (i) MAM est capable de traiter divers types de matting d'images, y compris le matting sémantique, par instance et par référence, avec un seul modèle ; (ii) MAM exploite les cartes de caractéristiques du Segment Anything Model (SAM) et adopte un module léger Mask-to-Matte (M2M) pour prédire la matte alpha grâce à un raffinement itératif, avec seulement 2,7 millions de paramètres entraînables ; (iii) En intégrant SAM, MAM simplifie l'intervention utilisateur nécessaire pour l'utilisation interactive du matting d'images, passant du trimap à des prompts de boîte, de point ou de texte. Nous évaluons les performances de MAM sur divers benchmarks de matting d'images, et les résultats expérimentaux montrent que MAM atteint des performances comparables aux modèles spécialisés de pointe sous différentes métriques sur chaque benchmark. Globalement, MAM démontre une capacité de généralisation supérieure et peut gérer efficacement diverses tâches de matting d'images avec moins de paramètres, en faisant une solution pratique pour un matting d'images unifié. Notre code et nos modèles sont open-source à l'adresse https://github.com/SHI-Labs/Matting-Anything.
English
In this paper, we propose the Matting Anything Model (MAM), an efficient and
versatile framework for estimating the alpha matte of any instance in an image
with flexible and interactive visual or linguistic user prompt guidance. MAM
offers several significant advantages over previous specialized image matting
networks: (i) MAM is capable of dealing with various types of image matting,
including semantic, instance, and referring image matting with only a single
model; (ii) MAM leverages the feature maps from the Segment Anything Model
(SAM) and adopts a lightweight Mask-to-Matte (M2M) module to predict the alpha
matte through iterative refinement, which has only 2.7 million trainable
parameters. (iii) By incorporating SAM, MAM simplifies the user intervention
required for the interactive use of image matting from the trimap to the box,
point, or text prompt. We evaluate the performance of MAM on various image
matting benchmarks, and the experimental results demonstrate that MAM achieves
comparable performance to the state-of-the-art specialized image matting models
under different metrics on each benchmark. Overall, MAM shows superior
generalization ability and can effectively handle various image matting tasks
with fewer parameters, making it a practical solution for unified image
matting. Our code and models are open-sourced at
https://github.com/SHI-Labs/Matting-Anything.