Matting von allem
Matting Anything
June 8, 2023
Autoren: Jiachen Li, Jitesh Jain, Humphrey Shi
cs.AI
Zusammenfassung
In diesem Artikel stellen wir das Matting Anything Model (MAM) vor, ein effizientes und vielseitiges Framework zur Schätzung des Alpha-Mattes jeder Instanz in einem Bild mit flexibler und interaktiver visueller oder linguistischer Benutzerführung. MAM bietet mehrere bedeutende Vorteile gegenüber früheren spezialisierten Bildmatting-Netzwerken: (i) MAM ist in der Lage, verschiedene Arten von Bildmatting zu verarbeiten, einschließlich semantischem, instanzbasiertem und referenziellem Bildmatting, und dies mit nur einem einzigen Modell; (ii) MAM nutzt die Feature-Maps des Segment Anything Model (SAM) und verwendet ein leichtgewichtiges Mask-to-Matte (M2M)-Modul, um das Alpha-Matte durch iterative Verfeinerung vorherzusagen, das nur 2,7 Millionen trainierbare Parameter besitzt. (iii) Durch die Integration von SAM vereinfacht MAM die erforderliche Benutzerintervention für die interaktive Nutzung von Bildmatting vom Trimap auf eine Box, einen Punkt oder einen Text-Prompt. Wir evaluieren die Leistung von MAM auf verschiedenen Bildmatting-Benchmarks, und die experimentellen Ergebnisse zeigen, dass MAM eine vergleichbare Leistung zu den state-of-the-art spezialisierten Bildmatting-Modellen unter verschiedenen Metriken auf jedem Benchmark erzielt. Insgesamt zeigt MAM eine überlegene Generalisierungsfähigkeit und kann effektiv verschiedene Bildmatting-Aufgaben mit weniger Parametern bewältigen, was es zu einer praktischen Lösung für einheitliches Bildmatting macht. Unser Code und unsere Modelle sind unter https://github.com/SHI-Labs/Matting-Anything open-source verfügbar.
English
In this paper, we propose the Matting Anything Model (MAM), an efficient and
versatile framework for estimating the alpha matte of any instance in an image
with flexible and interactive visual or linguistic user prompt guidance. MAM
offers several significant advantages over previous specialized image matting
networks: (i) MAM is capable of dealing with various types of image matting,
including semantic, instance, and referring image matting with only a single
model; (ii) MAM leverages the feature maps from the Segment Anything Model
(SAM) and adopts a lightweight Mask-to-Matte (M2M) module to predict the alpha
matte through iterative refinement, which has only 2.7 million trainable
parameters. (iii) By incorporating SAM, MAM simplifies the user intervention
required for the interactive use of image matting from the trimap to the box,
point, or text prompt. We evaluate the performance of MAM on various image
matting benchmarks, and the experimental results demonstrate that MAM achieves
comparable performance to the state-of-the-art specialized image matting models
under different metrics on each benchmark. Overall, MAM shows superior
generalization ability and can effectively handle various image matting tasks
with fewer parameters, making it a practical solution for unified image
matting. Our code and models are open-sourced at
https://github.com/SHI-Labs/Matting-Anything.