ChatPaper.aiChatPaper

S2D: 비지도 비디오 인스턴스 분할을 위한 희소-밀집 키마스크 지식 증류

S2D: Sparse-To-Dense Keymask Distillation for Unsupervised Video Instance Segmentation

December 16, 2025
저자: Leon Sick, Lukas Hoyer, Dominik Engel, Pedro Hermosilla, Timo Ropinski
cs.AI

초록

최근 무비디오 인스턴스 분할 분야의 최첨단 기술은 ImageNet과 같은 객체 중심 이미지 데이터셋에서 생성된 합성 비디오 데이터에 크게 의존해 왔습니다. 그러나 이미지 인스턴스 마스크를 인위적으로 이동 및 스케일링하여 비디오를 합성하는 방식은 원근 변화, 단일 또는 다중 인스턴스의 일부 부위 운동, 카메라 운동 등 실제 비디오의 현실적인 움직임을 정확하게 모델링하지 못합니다. 이 문제를 해결하기 위해 우리는 실제 비디오 데이터만으로 훈련된 무감독 비디오 인스턴스 분할 모델을 제안합니다. 우리는 개별 비디오 프레임에 대한 무감독 인스턴스 분할 마스크를 시작점으로 삼습니다. 그러나 이러한 단일 프레임 분할 결과는 시간적 노이즈를 나타내며 비디오 전반에 걸쳐 그 품질이 변동합니다. 따라서 우리는 심층 운동 사전 지식을 활용하여 비디오 내에서 고품질 키마스크를 식별함으로써 시간적 일관성을 확립합니다. 이 희소 키마스크 의사 주해는 암묵적 마스크 전파를 위한 분할 모델 훈련에 사용되며, 여기서 우리는 Temporal DropLoss를 보조 도구로 활용하는 Sparse-To-Dense Distillation 접근법을 제안합니다. 생성된 조밀 레이블셋으로 최종 모델을 훈련한 후, 우리의 접근법은 다양한 벤치마크에서 현재 최첨단 기술을 능가하는 성능을 보여줍니다.
English
In recent years, the state-of-the-art in unsupervised video instance segmentation has heavily relied on synthetic video data, generated from object-centric image datasets such as ImageNet. However, video synthesis by artificially shifting and scaling image instance masks fails to accurately model realistic motion in videos, such as perspective changes, movement by parts of one or multiple instances, or camera motion. To tackle this issue, we propose an unsupervised video instance segmentation model trained exclusively on real video data. We start from unsupervised instance segmentation masks on individual video frames. However, these single-frame segmentations exhibit temporal noise and their quality varies through the video. Therefore, we establish temporal coherence by identifying high-quality keymasks in the video by leveraging deep motion priors. The sparse keymask pseudo-annotations are then used to train a segmentation model for implicit mask propagation, for which we propose a Sparse-To-Dense Distillation approach aided by a Temporal DropLoss. After training the final model on the resulting dense labelset, our approach outperforms the current state-of-the-art across various benchmarks.
PDF01December 18, 2025