Richtung natürliche Bildmatting in freier Wildbahn über reale Szenario-Prioritäten
Towards Natural Image Matting in the Wild via Real-Scenario Prior
October 9, 2024
Autoren: Ruihao Xia, Yu Liang, Peng-Tao Jiang, Hao Zhang, Qianru Sun, Yang Tang, Bo Li, Pan Zhou
cs.AI
Zusammenfassung
Aktuelle Ansätze versuchen, leistungsstarke interaktive Segmentierungsmodelle wie SAM an interaktives Matting anzupassen und die Modelle basierend auf synthetischen Matting-Datensätzen zu feinabzustimmen. Modelle, die auf synthetischen Daten trainiert sind, scheitern jedoch daran, sich auf komplexe Szenen mit Überlagerungen zu verallgemeinern. Wir begegnen dieser Herausforderung, indem wir einen neuen Matting-Datensatz basierend auf dem COCO-Datensatz vorschlagen, nämlich COCO-Matting. Speziell umfasst die Konstruktion unseres COCO-Matting die Fusion von Accessoires und Mask-to-Matte, wobei komplexe Bilder aus der realen Welt aus COCO ausgewählt und semantische Segmentierungsmasken in Matting-Labels umgewandelt werden. Das erstellte COCO-Matting umfasst eine umfangreiche Sammlung von 38.251 Alpha-Matten auf Instanzebene von Menschen in komplexen natürlichen Szenarien. Darüber hinaus extrahieren bestehende SAM-basierte Matting-Methoden Zwischenmerkmale und Masken aus einem eingefrorenen SAM und trainieren nur einen leichtgewichtigen Matting-Decoder mit End-to-End-Matting-Verlusten, die das Potenzial des vorab trainierten SAM nicht vollständig ausschöpfen. Daher schlagen wir SEMat vor, das die Netzwerkarchitektur und Trainingsziele überarbeitet. Für die Netzwerkarchitektur lernt der vorgeschlagene Feature-alignierte Transformer, feinkörnige Kanten- und Transparenzmerkmale zu extrahieren. Der vorgeschlagene Matte-alignierte Decoder zielt darauf ab, matting-spezifische Objekte zu segmentieren und grobe Masken in hochpräzise Matten umzuwandeln. Für die Trainingsziele zielen die vorgeschlagene Regularisierung und Trimap-Verlust darauf ab, das Vorwissen aus dem vorab trainierten Modell zu bewahren und die aus dem Masken-Decoder extrahierten Matting-Logits mit trimpapierter semantischer Information zu versehen. Umfangreiche Experimente über sieben verschiedene Datensätze hinweg zeigen die überragende Leistung unserer Methode und belegen ihre Wirksamkeit beim interaktiven natürlichen Bildmatting. Wir stellen unseren Code, Modelle und Datensatz unter https://github.com/XiaRho/SEMat als Open Source zur Verfügung.
English
Recent approaches attempt to adapt powerful interactive segmentation models,
such as SAM, to interactive matting and fine-tune the models based on synthetic
matting datasets. However, models trained on synthetic data fail to generalize
to complex and occlusion scenes. We address this challenge by proposing a new
matting dataset based on the COCO dataset, namely COCO-Matting. Specifically,
the construction of our COCO-Matting includes accessory fusion and
mask-to-matte, which selects real-world complex images from COCO and converts
semantic segmentation masks to matting labels. The built COCO-Matting comprises
an extensive collection of 38,251 human instance-level alpha mattes in complex
natural scenarios. Furthermore, existing SAM-based matting methods extract
intermediate features and masks from a frozen SAM and only train a lightweight
matting decoder by end-to-end matting losses, which do not fully exploit the
potential of the pre-trained SAM. Thus, we propose SEMat which revamps the
network architecture and training objectives. For network architecture, the
proposed feature-aligned transformer learns to extract fine-grained edge and
transparency features. The proposed matte-aligned decoder aims to segment
matting-specific objects and convert coarse masks into high-precision mattes.
For training objectives, the proposed regularization and trimap loss aim to
retain the prior from the pre-trained model and push the matting logits
extracted from the mask decoder to contain trimap-based semantic information.
Extensive experiments across seven diverse datasets demonstrate the superior
performance of our method, proving its efficacy in interactive natural image
matting. We open-source our code, models, and dataset at
https://github.com/XiaRho/SEMat.Summary
AI-Generated Summary