Маскирование чего угодно

Аннотация

В данной статье мы представляем Matting Anything Model (MAM) — эффективную и универсальную структуру для оценки альфа-матов любого объекта на изображении с гибким и интерактивным управлением через визуальные или языковые подсказки пользователя. MAM предлагает несколько значительных преимуществ по сравнению с предыдущими специализированными сетями для матирования изображений: (i) MAM способна обрабатывать различные типы матирования, включая семантическое, инстансное и референсное матирование, используя всего одну модель; (ii) MAM использует карты признаков из модели Segment Anything Model (SAM) и применяет легковесный модуль Mask-to-Matte (M2M) для предсказания альфа-матов через итеративное уточнение, что требует всего 2,7 миллиона обучаемых параметров; (iii) Благодаря интеграции SAM, MAM упрощает необходимое вмешательство пользователя для интерактивного матирования изображений, заменяя тримап на прямоугольник, точку или текстовую подсказку. Мы оцениваем производительность MAM на различных бенчмарках для матирования изображений, и результаты экспериментов показывают, что MAM достигает сопоставимой производительности с современными специализированными моделями матирования по различным метрикам на каждом бенчмарке. В целом, MAM демонстрирует превосходную способность к обобщению и эффективно справляется с различными задачами матирования изображений при меньшем количестве параметров, что делает её практичным решением для унифицированного матирования изображений. Наш код и модели доступны по адресу https://github.com/SHI-Labs/Matting-Anything.

English

In this paper, we propose the Matting Anything Model (MAM), an efficient and versatile framework for estimating the alpha matte of any instance in an image with flexible and interactive visual or linguistic user prompt guidance. MAM offers several significant advantages over previous specialized image matting networks: (i) MAM is capable of dealing with various types of image matting, including semantic, instance, and referring image matting with only a single model; (ii) MAM leverages the feature maps from the Segment Anything Model (SAM) and adopts a lightweight Mask-to-Matte (M2M) module to predict the alpha matte through iterative refinement, which has only 2.7 million trainable parameters. (iii) By incorporating SAM, MAM simplifies the user intervention required for the interactive use of image matting from the trimap to the box, point, or text prompt. We evaluate the performance of MAM on various image matting benchmarks, and the experimental results demonstrate that MAM achieves comparable performance to the state-of-the-art specialized image matting models under different metrics on each benchmark. Overall, MAM shows superior generalization ability and can effectively handle various image matting tasks with fewer parameters, making it a practical solution for unified image matting. Our code and models are open-sourced at https://github.com/SHI-Labs/Matting-Anything.