ChatPaper.aiChatPaper

Vers un détourage d'images naturelles dans la nature à l'aide de scénarios réels.

Towards Natural Image Matting in the Wild via Real-Scenario Prior

October 9, 2024
Auteurs: Ruihao Xia, Yu Liang, Peng-Tao Jiang, Hao Zhang, Qianru Sun, Yang Tang, Bo Li, Pan Zhou
cs.AI

Résumé

Les approches récentes tentent d'adapter des modèles puissants de segmentation interactive, tels que SAM, à la matting interactive et de peaufiner les modèles en se basant sur des ensembles de données de matting synthétiques. Cependant, les modèles entraînés sur des données synthétiques échouent à généraliser aux scènes complexes et d'occlusion. Nous relevons ce défi en proposant un nouvel ensemble de données de matting basé sur l'ensemble de données COCO, nommé COCO-Matting. Plus précisément, la construction de notre COCO-Matting inclut la fusion d'accessoires et le passage de masque à matting, qui sélectionne des images complexes du monde réel à partir de COCO et convertit les masques de segmentation sémantique en étiquettes de matting. Le COCO-Matting construit comprend une vaste collection de 38 251 alpha mattes au niveau de l'instance humaine dans des scénarios naturels complexes. De plus, les méthodes de matting basées sur SAM existantes extraient des caractéristiques intermédiaires et des masques d'un SAM figé et ne forment qu'un décodeur de matting léger à l'aide de pertes de matting de bout en bout, qui n'exploitent pas pleinement le potentiel du SAM pré-entraîné. Ainsi, nous proposons SEMat qui restructure l'architecture du réseau et les objectifs de formation. Pour l'architecture du réseau, le transformateur aligné sur les caractéristiques proposé apprend à extraire des caractéristiques de bord et de transparence fines. Le décodeur aligné sur le matting proposé vise à segmenter des objets spécifiques au matting et à convertir des masques grossiers en mattes de haute précision. Pour les objectifs de formation, la régularisation proposée et la perte de trimap visent à conserver les informations antérieures du modèle pré-entraîné et à pousser les logits de matting extraits du décodeur de masque à contenir des informations sémantiques basées sur le trimap. Des expériences approfondies sur sept ensembles de données divers démontrent les performances supérieures de notre méthode, prouvant son efficacité en matting d'images naturelles interactives. Nous mettons notre code, nos modèles et notre ensemble de données en open source sur https://github.com/XiaRho/SEMat.
English
Recent approaches attempt to adapt powerful interactive segmentation models, such as SAM, to interactive matting and fine-tune the models based on synthetic matting datasets. However, models trained on synthetic data fail to generalize to complex and occlusion scenes. We address this challenge by proposing a new matting dataset based on the COCO dataset, namely COCO-Matting. Specifically, the construction of our COCO-Matting includes accessory fusion and mask-to-matte, which selects real-world complex images from COCO and converts semantic segmentation masks to matting labels. The built COCO-Matting comprises an extensive collection of 38,251 human instance-level alpha mattes in complex natural scenarios. Furthermore, existing SAM-based matting methods extract intermediate features and masks from a frozen SAM and only train a lightweight matting decoder by end-to-end matting losses, which do not fully exploit the potential of the pre-trained SAM. Thus, we propose SEMat which revamps the network architecture and training objectives. For network architecture, the proposed feature-aligned transformer learns to extract fine-grained edge and transparency features. The proposed matte-aligned decoder aims to segment matting-specific objects and convert coarse masks into high-precision mattes. For training objectives, the proposed regularization and trimap loss aim to retain the prior from the pre-trained model and push the matting logits extracted from the mask decoder to contain trimap-based semantic information. Extensive experiments across seven diverse datasets demonstrate the superior performance of our method, proving its efficacy in interactive natural image matting. We open-source our code, models, and dataset at https://github.com/XiaRho/SEMat.

Summary

AI-Generated Summary

PDF32November 16, 2024