Маскирование чего угодно
Matting Anything
June 8, 2023
Авторы: Jiachen Li, Jitesh Jain, Humphrey Shi
cs.AI
Аннотация
В данной статье мы представляем Matting Anything Model (MAM) — эффективную и универсальную структуру для оценки альфа-матов любого объекта на изображении с гибким и интерактивным управлением через визуальные или языковые подсказки пользователя. MAM предлагает несколько значительных преимуществ по сравнению с предыдущими специализированными сетями для матирования изображений: (i) MAM способна обрабатывать различные типы матирования, включая семантическое, инстансное и референсное матирование, используя всего одну модель; (ii) MAM использует карты признаков из модели Segment Anything Model (SAM) и применяет легковесный модуль Mask-to-Matte (M2M) для предсказания альфа-матов через итеративное уточнение, что требует всего 2,7 миллиона обучаемых параметров; (iii) Благодаря интеграции SAM, MAM упрощает необходимое вмешательство пользователя для интерактивного матирования изображений, заменяя тримап на прямоугольник, точку или текстовую подсказку. Мы оцениваем производительность MAM на различных бенчмарках для матирования изображений, и результаты экспериментов показывают, что MAM достигает сопоставимой производительности с современными специализированными моделями матирования по различным метрикам на каждом бенчмарке. В целом, MAM демонстрирует превосходную способность к обобщению и эффективно справляется с различными задачами матирования изображений при меньшем количестве параметров, что делает её практичным решением для унифицированного матирования изображений. Наш код и модели доступны по адресу https://github.com/SHI-Labs/Matting-Anything.
English
In this paper, we propose the Matting Anything Model (MAM), an efficient and
versatile framework for estimating the alpha matte of any instance in an image
with flexible and interactive visual or linguistic user prompt guidance. MAM
offers several significant advantages over previous specialized image matting
networks: (i) MAM is capable of dealing with various types of image matting,
including semantic, instance, and referring image matting with only a single
model; (ii) MAM leverages the feature maps from the Segment Anything Model
(SAM) and adopts a lightweight Mask-to-Matte (M2M) module to predict the alpha
matte through iterative refinement, which has only 2.7 million trainable
parameters. (iii) By incorporating SAM, MAM simplifies the user intervention
required for the interactive use of image matting from the trimap to the box,
point, or text prompt. We evaluate the performance of MAM on various image
matting benchmarks, and the experimental results demonstrate that MAM achieves
comparable performance to the state-of-the-art specialized image matting models
under different metrics on each benchmark. Overall, MAM shows superior
generalization ability and can effectively handle various image matting tasks
with fewer parameters, making it a practical solution for unified image
matting. Our code and models are open-sourced at
https://github.com/SHI-Labs/Matting-Anything.