Hacia el Desenfoque de Imágenes Natural en la Naturaleza a través de Prioridades de Escenarios Reales
Towards Natural Image Matting in the Wild via Real-Scenario Prior
October 9, 2024
Autores: Ruihao Xia, Yu Liang, Peng-Tao Jiang, Hao Zhang, Qianru Sun, Yang Tang, Bo Li, Pan Zhou
cs.AI
Resumen
Enfoques recientes intentan adaptar modelos potentes de segmentación interactiva, como SAM, al enmascaramiento interactivo y ajustar los modelos basados en conjuntos de datos sintéticos de enmascaramiento. Sin embargo, los modelos entrenados con datos sintéticos no logran generalizar a escenas complejas y con oclusión. Abordamos este desafío proponiendo un nuevo conjunto de datos de enmascaramiento basado en el conjunto de datos COCO, llamado COCO-Matting. Específicamente, la construcción de nuestro COCO-Matting incluye fusión de accesorios y de máscara a mate, que selecciona imágenes complejas del mundo real de COCO y convierte máscaras de segmentación semántica en etiquetas de enmascaramiento. El COCO-Matting creado comprende una extensa colección de 38,251 mates alfa a nivel de instancia humana en escenarios naturales complejos. Además, los métodos de enmascaramiento basados en SAM existentes extraen características intermedias y máscaras de un SAM congelado y solo entrenan un decodificador de enmascaramiento liviano mediante pérdidas de enmascaramiento de extremo a extremo, que no explotan completamente el potencial del SAM preentrenado. Por lo tanto, proponemos SEMat, que renueva la arquitectura de red y los objetivos de entrenamiento. Para la arquitectura de red, el transformador de características propuesto alineado aprende a extraer características de bordes y transparencia detalladas. El decodificador de mate propuesto alineado con mate tiene como objetivo segmentar objetos específicos de enmascaramiento y convertir máscaras gruesas en mates de alta precisión. Para los objetivos de entrenamiento, la regularización propuesta y la pérdida de trimap buscan mantener el conocimiento previo del modelo preentrenado y empujar los logitos de enmascaramiento extraídos del decodificador de máscara para contener información semántica basada en trimap. Experimentos extensos en siete conjuntos de datos diversos demuestran el rendimiento superior de nuestro método, demostrando su eficacia en el enmascaramiento interactivo de imágenes naturales. Ponemos a disposición nuestro código, modelos y conjunto de datos en https://github.com/XiaRho/SEMat.
English
Recent approaches attempt to adapt powerful interactive segmentation models,
such as SAM, to interactive matting and fine-tune the models based on synthetic
matting datasets. However, models trained on synthetic data fail to generalize
to complex and occlusion scenes. We address this challenge by proposing a new
matting dataset based on the COCO dataset, namely COCO-Matting. Specifically,
the construction of our COCO-Matting includes accessory fusion and
mask-to-matte, which selects real-world complex images from COCO and converts
semantic segmentation masks to matting labels. The built COCO-Matting comprises
an extensive collection of 38,251 human instance-level alpha mattes in complex
natural scenarios. Furthermore, existing SAM-based matting methods extract
intermediate features and masks from a frozen SAM and only train a lightweight
matting decoder by end-to-end matting losses, which do not fully exploit the
potential of the pre-trained SAM. Thus, we propose SEMat which revamps the
network architecture and training objectives. For network architecture, the
proposed feature-aligned transformer learns to extract fine-grained edge and
transparency features. The proposed matte-aligned decoder aims to segment
matting-specific objects and convert coarse masks into high-precision mattes.
For training objectives, the proposed regularization and trimap loss aim to
retain the prior from the pre-trained model and push the matting logits
extracted from the mask decoder to contain trimap-based semantic information.
Extensive experiments across seven diverse datasets demonstrate the superior
performance of our method, proving its efficacy in interactive natural image
matting. We open-source our code, models, and dataset at
https://github.com/XiaRho/SEMat.Summary
AI-Generated Summary