Сегментация экземпляров на видео

Аннотация

Традиционное видео-маттирование выводит одну альфа-маску для всех объектов, присутствующих в кадре видео, что не позволяет различать отдельные объекты. Хотя сегментация видео по экземплярам обеспечивает временно-согласованные маски объектов, результаты оказываются неудовлетворительными для задач маттирования, особенно из-за применяемой бинаризации. Чтобы устранить этот недостаток, мы предлагаем Video Instance Matting (VIM) — метод оценки альфа-масок для каждого объекта в каждом кадре видеопоследовательности. Для решения этой сложной задачи мы представляем MSG-VIM, нейронную сеть для видео-маттирования по экземплярам с использованием последовательностей масок, как новую базовую модель для VIM. MSG-VIM использует комбинацию аугментаций масок, чтобы сделать предсказания устойчивыми к неточным и несогласованным маскам. Она включает временное руководство по маскам и временное руководство по признакам для улучшения временной согласованности предсказаний альфа-масок. Кроме того, мы создаем новый эталонный набор данных для VIM, называемый VIM50, который включает 50 видеоклипов с несколькими человеческими объектами на переднем плане. Для оценки производительности на задаче VIM мы вводим подходящую метрику, называемую Video Instance-aware Matting Quality (VIMQ). Наша предложенная модель MSG-VIM устанавливает сильный базовый уровень на эталоне VIM50 и значительно превосходит существующие методы. Проект доступен в открытом доступе по адресу https://github.com/SHI-Labs/VIM.

English

Conventional video matting outputs one alpha matte for all instances appearing in a video frame so that individual instances are not distinguished. While video instance segmentation provides time-consistent instance masks, results are unsatisfactory for matting applications, especially due to applied binarization. To remedy this deficiency, we propose Video Instance Matting~(VIM), that is, estimating alpha mattes of each instance at each frame of a video sequence. To tackle this challenging problem, we present MSG-VIM, a Mask Sequence Guided Video Instance Matting neural network, as a novel baseline model for VIM. MSG-VIM leverages a mixture of mask augmentations to make predictions robust to inaccurate and inconsistent mask guidance. It incorporates temporal mask and temporal feature guidance to improve the temporal consistency of alpha matte predictions. Furthermore, we build a new benchmark for VIM, called VIM50, which comprises 50 video clips with multiple human instances as foreground objects. To evaluate performances on the VIM task, we introduce a suitable metric called Video Instance-aware Matting Quality~(VIMQ). Our proposed model MSG-VIM sets a strong baseline on the VIM50 benchmark and outperforms existing methods by a large margin. The project is open-sourced at https://github.com/SHI-Labs/VIM.