ChatPaper.aiChatPaper

비디오 인스턴스 매팅

Video Instance Matting

November 7, 2023
저자: Jiachen Li, Roberto Henschel, Vidit Goel, Marianna Ohanyan, Shant Navasardyan, Humphrey Shi
cs.AI

초록

기존의 비디오 매팅은 비디오 프레임에 나타나는 모든 인스턴스에 대해 하나의 알파 매트(alpha matte)를 출력하므로 개별 인스턴스를 구분하지 못합니다. 비디오 인스턴스 세분화(video instance segmentation)는 시간적 일관성을 갖는 인스턴스 마스크를 제공하지만, 특히 이진화(binarization)가 적용되기 때문에 매팅 애플리케이션에서는 만족스러운 결과를 제공하지 못합니다. 이러한 단점을 해결하기 위해, 우리는 비디오 시퀀스의 각 프레임에서 각 인스턴스의 알파 매트를 추정하는 Video Instance Matting(VIM)을 제안합니다. 이 어려운 문제를 해결하기 위해, 우리는 VIM을 위한 새로운 베이스라인 모델로 Mask Sequence Guided Video Instance Matting(MSG-VIM) 신경망을 제시합니다. MSG-VIM은 부정확하고 일관성 없는 마스크 지침에 대해 예측을 강건하게 만들기 위해 다양한 마스크 증강 기법을 활용합니다. 또한, 시간적 마스크와 시간적 특징 지침을 통합하여 알파 매트 예측의 시간적 일관성을 개선합니다. 더 나아가, 우리는 VIM을 위한 새로운 벤치마크인 VIM50을 구축했습니다. VIM50은 전경 객체로 여러 인간 인스턴스를 포함하는 50개의 비디오 클립으로 구성됩니다. VIM 작업의 성능을 평가하기 위해, 우리는 Video Instance-aware Matting Quality(VIMQ)라는 적절한 메트릭을 도입했습니다. 우리가 제안한 모델인 MSG-VIM은 VIM50 벤치마크에서 강력한 베이스라인을 설정하며, 기존 방법들을 큰 차이로 능가합니다. 이 프로젝트는 https://github.com/SHI-Labs/VIM에서 오픈소스로 제공됩니다.
English
Conventional video matting outputs one alpha matte for all instances appearing in a video frame so that individual instances are not distinguished. While video instance segmentation provides time-consistent instance masks, results are unsatisfactory for matting applications, especially due to applied binarization. To remedy this deficiency, we propose Video Instance Matting~(VIM), that is, estimating alpha mattes of each instance at each frame of a video sequence. To tackle this challenging problem, we present MSG-VIM, a Mask Sequence Guided Video Instance Matting neural network, as a novel baseline model for VIM. MSG-VIM leverages a mixture of mask augmentations to make predictions robust to inaccurate and inconsistent mask guidance. It incorporates temporal mask and temporal feature guidance to improve the temporal consistency of alpha matte predictions. Furthermore, we build a new benchmark for VIM, called VIM50, which comprises 50 video clips with multiple human instances as foreground objects. To evaluate performances on the VIM task, we introduce a suitable metric called Video Instance-aware Matting Quality~(VIMQ). Our proposed model MSG-VIM sets a strong baseline on the VIM50 benchmark and outperforms existing methods by a large margin. The project is open-sourced at https://github.com/SHI-Labs/VIM.
PDF110December 15, 2024