ChatPaper.aiChatPaper

Verso il ritaglio naturale delle immagini in condizioni reali tramite precedenti di scenario reale.

Towards Natural Image Matting in the Wild via Real-Scenario Prior

October 9, 2024
Autori: Ruihao Xia, Yu Liang, Peng-Tao Jiang, Hao Zhang, Qianru Sun, Yang Tang, Bo Li, Pan Zhou
cs.AI

Abstract

Approcci recenti cercano di adattare potenti modelli di segmentazione interattiva, come SAM, al tracciamento interattivo e di perfezionare i modelli basati su set di dati di tracciamento sintetici. Tuttavia, i modelli addestrati su dati sintetici falliscono nel generalizzare a scene complesse e con occlusioni. Affrontiamo questa sfida proponendo un nuovo set di dati di tracciamento basato sul dataset COCO, chiamato COCO-Matting. In particolare, la costruzione del nostro COCO-Matting include la fusione degli accessori e il passaggio da maschere a tracciati, che seleziona immagini complesse del mondo reale da COCO e converte le maschere di segmentazione semantica in etichette di tracciamento. Il COCO-Matting creato comprende una vasta raccolta di 38.251 tracciati alfa a livello di istanza umana in scenari naturali complessi. Inoltre, i metodi di tracciamento basati su SAM esistenti estraggono caratteristiche intermedie e maschere da un SAM congelato e addestrano solo un decoder di tracciamento leggero tramite perdite di tracciamento end-to-end, che non sfruttano appieno il potenziale del SAM pre-addestrato. Pertanto, proponiamo SEMat che rivoluziona l'architettura della rete e gli obiettivi di addestramento. Per quanto riguarda l'architettura della rete, il transformer allineato alle caratteristiche proposto impara ad estrarre caratteristiche di bordo e trasparenza dettagliate. Il decoder allineato al tracciato proposto mira a segmentare oggetti specifici del tracciamento e convertire maschere grossolane in tracciati ad alta precisione. Per gli obiettivi di addestramento, la regolarizzazione proposta e la perdita di trimap mirano a mantenere le informazioni precedenti dal modello pre-addestrato e spingere i logit di tracciamento estratti dal decoder della maschera a contenere informazioni semantiche basate sul trimap. Estesi esperimenti su sette diversi set di dati dimostrano le prestazioni superiori del nostro metodo, dimostrandone l'efficacia nel tracciamento interattivo di immagini naturali. Mettiamo a disposizione il nostro codice, modelli e set di dati open-source su https://github.com/XiaRho/SEMat.
English
Recent approaches attempt to adapt powerful interactive segmentation models, such as SAM, to interactive matting and fine-tune the models based on synthetic matting datasets. However, models trained on synthetic data fail to generalize to complex and occlusion scenes. We address this challenge by proposing a new matting dataset based on the COCO dataset, namely COCO-Matting. Specifically, the construction of our COCO-Matting includes accessory fusion and mask-to-matte, which selects real-world complex images from COCO and converts semantic segmentation masks to matting labels. The built COCO-Matting comprises an extensive collection of 38,251 human instance-level alpha mattes in complex natural scenarios. Furthermore, existing SAM-based matting methods extract intermediate features and masks from a frozen SAM and only train a lightweight matting decoder by end-to-end matting losses, which do not fully exploit the potential of the pre-trained SAM. Thus, we propose SEMat which revamps the network architecture and training objectives. For network architecture, the proposed feature-aligned transformer learns to extract fine-grained edge and transparency features. The proposed matte-aligned decoder aims to segment matting-specific objects and convert coarse masks into high-precision mattes. For training objectives, the proposed regularization and trimap loss aim to retain the prior from the pre-trained model and push the matting logits extracted from the mask decoder to contain trimap-based semantic information. Extensive experiments across seven diverse datasets demonstrate the superior performance of our method, proving its efficacy in interactive natural image matting. We open-source our code, models, and dataset at https://github.com/XiaRho/SEMat.

Summary

AI-Generated Summary

PDF32November 16, 2024