Matting Anything
Matting Anything
June 8, 2023
Autores: Jiachen Li, Jitesh Jain, Humphrey Shi
cs.AI
Resumen
En este artículo, proponemos el Modelo de Matting para Cualquier Cosa (MAM, por sus siglas en inglés), un marco eficiente y versátil para estimar el alfa matte de cualquier instancia en una imagen con guía flexible e interactiva mediante indicaciones visuales o lingüísticas del usuario. MAM ofrece varias ventajas significativas sobre las redes especializadas de matting de imágenes anteriores: (i) MAM es capaz de manejar diversos tipos de matting de imágenes, incluyendo matting semántico, de instancia y de referencia, utilizando un solo modelo; (ii) MAM aprovecha los mapas de características del Modelo de Segmentación para Cualquier Cosa (SAM, por sus siglas en inglés) y adopta un módulo ligero de Máscara a Matte (M2M, por sus siglas en inglés) para predecir el alfa matte mediante refinamiento iterativo, el cual tiene solo 2.7 millones de parámetros entrenables; (iii) Al incorporar SAM, MAM simplifica la intervención del usuario requerida para el uso interactivo del matting de imágenes, pasando del trimap a indicaciones de caja, punto o texto. Evaluamos el rendimiento de MAM en varios benchmarks de matting de imágenes, y los resultados experimentales demuestran que MAM alcanza un rendimiento comparable al de los modelos especializados de matting de imágenes más avanzados bajo diferentes métricas en cada benchmark. En general, MAM muestra una capacidad de generalización superior y puede manejar eficazmente diversas tareas de matting de imágenes con menos parámetros, convirtiéndolo en una solución práctica para el matting de imágenes unificado. Nuestro código y modelos están disponibles en código abierto en https://github.com/SHI-Labs/Matting-Anything.
English
In this paper, we propose the Matting Anything Model (MAM), an efficient and
versatile framework for estimating the alpha matte of any instance in an image
with flexible and interactive visual or linguistic user prompt guidance. MAM
offers several significant advantages over previous specialized image matting
networks: (i) MAM is capable of dealing with various types of image matting,
including semantic, instance, and referring image matting with only a single
model; (ii) MAM leverages the feature maps from the Segment Anything Model
(SAM) and adopts a lightweight Mask-to-Matte (M2M) module to predict the alpha
matte through iterative refinement, which has only 2.7 million trainable
parameters. (iii) By incorporating SAM, MAM simplifies the user intervention
required for the interactive use of image matting from the trimap to the box,
point, or text prompt. We evaluate the performance of MAM on various image
matting benchmarks, and the experimental results demonstrate that MAM achieves
comparable performance to the state-of-the-art specialized image matting models
under different metrics on each benchmark. Overall, MAM shows superior
generalization ability and can effectively handle various image matting tasks
with fewer parameters, making it a practical solution for unified image
matting. Our code and models are open-sourced at
https://github.com/SHI-Labs/Matting-Anything.