ChatPaper.aiChatPaper

К естественному выделению изображений в дикой природе через предварительные данные реальных сценариев

Towards Natural Image Matting in the Wild via Real-Scenario Prior

October 9, 2024
Авторы: Ruihao Xia, Yu Liang, Peng-Tao Jiang, Hao Zhang, Qianru Sun, Yang Tang, Bo Li, Pan Zhou
cs.AI

Аннотация

Недавние подходы пытаются адаптировать мощные модели интерактивной сегментации, такие как SAM, к интерактивному маскированию и настраивать модели на основе синтетических наборов данных для маскирования. Однако модели, обученные на синтетических данных, не обобщаются на сложные сцены с заслонениями. Мы решаем эту проблему, предлагая новый набор данных для маскирования на основе набора данных COCO, именуемый COCO-Matting. В частности, построение нашего COCO-Matting включает слияние аксессуаров и преобразование масок семантической сегментации в маскировочные ярлыки. Построенный COCO-Matting включает обширную коллекцию 38 251 матов альфа уровня экземпляров людей в сложных естественных сценариях. Кроме того, существующие методы маскирования на основе SAM извлекают промежуточные функции и маски из замороженного SAM и обучают только легкий декодер маскирования с помощью потерь маскирования от начала и до конца, что не полностью использует потенциал предварительно обученного SAM. Таким образом, мы предлагаем SEMat, который модернизирует архитектуру сети и цели обучения. Для архитектуры сети предложенный трансформер, выравненный по функциям, учится извлекать мелкозернистые края и прозрачные функции. Предложенный декодер, выравненный по матам, направлен на сегментацию объектов маскирования и преобразование грубых масок в высокоточные маты. Для целей обучения предложенная регуляризация и потери тримапа направлены на сохранение информации из предварительно обученной модели и на то, чтобы матовые логиты, извлеченные из декодера маски, содержали семантическую информацию на основе тримапа. Обширные эксперименты на семи разнообразных наборах данных демонстрируют превосходную производительность нашего метода, доказывая его эффективность в интерактивном маскировании естественных изображений. Мы предоставляем наш код, модели и набор данных в открытом доступе по адресу https://github.com/XiaRho/SEMat.
English
Recent approaches attempt to adapt powerful interactive segmentation models, such as SAM, to interactive matting and fine-tune the models based on synthetic matting datasets. However, models trained on synthetic data fail to generalize to complex and occlusion scenes. We address this challenge by proposing a new matting dataset based on the COCO dataset, namely COCO-Matting. Specifically, the construction of our COCO-Matting includes accessory fusion and mask-to-matte, which selects real-world complex images from COCO and converts semantic segmentation masks to matting labels. The built COCO-Matting comprises an extensive collection of 38,251 human instance-level alpha mattes in complex natural scenarios. Furthermore, existing SAM-based matting methods extract intermediate features and masks from a frozen SAM and only train a lightweight matting decoder by end-to-end matting losses, which do not fully exploit the potential of the pre-trained SAM. Thus, we propose SEMat which revamps the network architecture and training objectives. For network architecture, the proposed feature-aligned transformer learns to extract fine-grained edge and transparency features. The proposed matte-aligned decoder aims to segment matting-specific objects and convert coarse masks into high-precision mattes. For training objectives, the proposed regularization and trimap loss aim to retain the prior from the pre-trained model and push the matting logits extracted from the mask decoder to contain trimap-based semantic information. Extensive experiments across seven diverse datasets demonstrate the superior performance of our method, proving its efficacy in interactive natural image matting. We open-source our code, models, and dataset at https://github.com/XiaRho/SEMat.

Summary

AI-Generated Summary

PDF32November 16, 2024