Сегментация экземпляров на видео
Video Instance Matting
November 7, 2023
Авторы: Jiachen Li, Roberto Henschel, Vidit Goel, Marianna Ohanyan, Shant Navasardyan, Humphrey Shi
cs.AI
Аннотация
Традиционное видео-маттирование выводит одну альфа-маску для всех объектов, присутствующих в кадре видео, что не позволяет различать отдельные объекты. Хотя сегментация видео по экземплярам обеспечивает временно-согласованные маски объектов, результаты оказываются неудовлетворительными для задач маттирования, особенно из-за применяемой бинаризации. Чтобы устранить этот недостаток, мы предлагаем Video Instance Matting (VIM) — метод оценки альфа-масок для каждого объекта в каждом кадре видеопоследовательности. Для решения этой сложной задачи мы представляем MSG-VIM, нейронную сеть для видео-маттирования по экземплярам с использованием последовательностей масок, как новую базовую модель для VIM. MSG-VIM использует комбинацию аугментаций масок, чтобы сделать предсказания устойчивыми к неточным и несогласованным маскам. Она включает временное руководство по маскам и временное руководство по признакам для улучшения временной согласованности предсказаний альфа-масок. Кроме того, мы создаем новый эталонный набор данных для VIM, называемый VIM50, который включает 50 видеоклипов с несколькими человеческими объектами на переднем плане. Для оценки производительности на задаче VIM мы вводим подходящую метрику, называемую Video Instance-aware Matting Quality (VIMQ). Наша предложенная модель MSG-VIM устанавливает сильный базовый уровень на эталоне VIM50 и значительно превосходит существующие методы. Проект доступен в открытом доступе по адресу https://github.com/SHI-Labs/VIM.
English
Conventional video matting outputs one alpha matte for all instances
appearing in a video frame so that individual instances are not distinguished.
While video instance segmentation provides time-consistent instance masks,
results are unsatisfactory for matting applications, especially due to applied
binarization. To remedy this deficiency, we propose Video Instance
Matting~(VIM), that is, estimating alpha mattes of each instance at each frame
of a video sequence. To tackle this challenging problem, we present MSG-VIM, a
Mask Sequence Guided Video Instance Matting neural network, as a novel baseline
model for VIM. MSG-VIM leverages a mixture of mask augmentations to make
predictions robust to inaccurate and inconsistent mask guidance. It
incorporates temporal mask and temporal feature guidance to improve the
temporal consistency of alpha matte predictions. Furthermore, we build a new
benchmark for VIM, called VIM50, which comprises 50 video clips with multiple
human instances as foreground objects. To evaluate performances on the VIM
task, we introduce a suitable metric called Video Instance-aware Matting
Quality~(VIMQ). Our proposed model MSG-VIM sets a strong baseline on the VIM50
benchmark and outperforms existing methods by a large margin. The project is
open-sourced at https://github.com/SHI-Labs/VIM.