Rumo à Matização de Imagens Naturais em Ambientes Selvagens por Meio de Priorização de Cenários Reais
Towards Natural Image Matting in the Wild via Real-Scenario Prior
October 9, 2024
Autores: Ruihao Xia, Yu Liang, Peng-Tao Jiang, Hao Zhang, Qianru Sun, Yang Tang, Bo Li, Pan Zhou
cs.AI
Resumo
Abordagens recentes tentam adaptar modelos poderosos de segmentação interativa, como SAM, para matização interativa e ajustar os modelos com base em conjuntos de dados sintéticos de matização. No entanto, os modelos treinados em dados sintéticos falham em generalizar para cenas complexas e com oclusões. Abordamos esse desafio propondo um novo conjunto de dados de matização com base no conjunto de dados COCO, denominado COCO-Matting. Especificamente, a construção do nosso COCO-Matting inclui fusão de acessórios e máscara para fosco, que seleciona imagens complexas do mundo real do COCO e converte máscaras de segmentação semântica em rótulos de matização. O COCO-Matting construído compreende uma extensa coleção de 38.251 foscos alfa em nível de instância humana em cenários naturais complexos. Além disso, os métodos de matização baseados em SAM existentes extraem características intermediárias e máscaras de um SAM congelado e apenas treinam um decodificador de matização leve por perdas de matização de ponta a ponta, que não exploram totalmente o potencial do SAM pré-treinado. Assim, propomos SEMat, que reformula a arquitetura da rede e os objetivos de treinamento. Para a arquitetura da rede, o transformador proposto alinhado a características aprende a extrair bordas e transparências detalhadas. O decodificador alinhado a foscos proposto visa segmentar objetos específicos de matização e converter máscaras grosseiras em foscos de alta precisão. Para os objetivos de treinamento, a regularização proposta e a perda de trimap visam manter a informação prévia do modelo pré-treinado e fazer com que os logits de matização extraídos do decodificador de máscara contenham informações semânticas baseadas em trimap. Experimentos extensivos em sete conjuntos de dados diversos demonstram o desempenho superior do nosso método, comprovando sua eficácia na matização interativa de imagens naturais. Disponibilizamos nosso código, modelos e conjunto de dados em código aberto em https://github.com/XiaRho/SEMat.
English
Recent approaches attempt to adapt powerful interactive segmentation models,
such as SAM, to interactive matting and fine-tune the models based on synthetic
matting datasets. However, models trained on synthetic data fail to generalize
to complex and occlusion scenes. We address this challenge by proposing a new
matting dataset based on the COCO dataset, namely COCO-Matting. Specifically,
the construction of our COCO-Matting includes accessory fusion and
mask-to-matte, which selects real-world complex images from COCO and converts
semantic segmentation masks to matting labels. The built COCO-Matting comprises
an extensive collection of 38,251 human instance-level alpha mattes in complex
natural scenarios. Furthermore, existing SAM-based matting methods extract
intermediate features and masks from a frozen SAM and only train a lightweight
matting decoder by end-to-end matting losses, which do not fully exploit the
potential of the pre-trained SAM. Thus, we propose SEMat which revamps the
network architecture and training objectives. For network architecture, the
proposed feature-aligned transformer learns to extract fine-grained edge and
transparency features. The proposed matte-aligned decoder aims to segment
matting-specific objects and convert coarse masks into high-precision mattes.
For training objectives, the proposed regularization and trimap loss aim to
retain the prior from the pre-trained model and push the matting logits
extracted from the mask decoder to contain trimap-based semantic information.
Extensive experiments across seven diverse datasets demonstrate the superior
performance of our method, proving its efficacy in interactive natural image
matting. We open-source our code, models, and dataset at
https://github.com/XiaRho/SEMat.Summary
AI-Generated Summary