S2D: Sparse-naar-Dichte Keymask Distillatie voor Ongecontroleerde Video-Instantiesegmentatie
S2D: Sparse-To-Dense Keymask Distillation for Unsupervised Video Instance Segmentation
December 16, 2025
Auteurs: Leon Sick, Lukas Hoyer, Dominik Engel, Pedro Hermosilla, Timo Ropinski
cs.AI
Samenvatting
De laatste jaren is de state-of-the-art op het gebied van ongecontroleerde video-instancesegmentatie sterk afhankelijk geweest van synthetische videogegevens, gegenereerd uit objectgecentreerde beelddatasets zoals ImageNet. Video-synthese door het kunstmatig verschuiven en schalen van instance-maskers van afbeeldingen slaagt er echter niet in realistische beweging in video's accuraat te modelleren, zoals perspectiefveranderingen, beweging door delen van één of meerdere instances, of camerabeweging. Om dit probleem aan te pakken, stellen we een model voor ongecontroleerde video-instancesegmentatie voor dat uitsluitend wordt getraind op echte videogegevens.
We vertrekken van ongecontroleerde instancesegmentatie-maskers op individuele videoframes. Deze enkelvoudige framesegmentaties vertonen echter temporele ruis en hun kwaliteit varieert door de video heen. Daarom stellen we temporele coherentie vast door hoogwaardige sleutelmaskers in de video te identificeren met behulp van deep motion-priors. De schaarse pseudo-annotaties van de sleutelmaskers worden vervolgens gebruikt om een segmentatiemodel te trainen voor impliciete maskerpropagatie, waarvoor we een Sparse-To-Dense Distillation-benadering voorstellen, ondersteund door een Temporal DropLoss. Na het trainen van het uiteindelijke model op de resulterende dichte labelset, presteert onze aanpak beter dan de huidige state-of-the-art in verschillende benchmarks.
English
In recent years, the state-of-the-art in unsupervised video instance segmentation has heavily relied on synthetic video data, generated from object-centric image datasets such as ImageNet. However, video synthesis by artificially shifting and scaling image instance masks fails to accurately model realistic motion in videos, such as perspective changes, movement by parts of one or multiple instances, or camera motion. To tackle this issue, we propose an unsupervised video instance segmentation model trained exclusively on real video data. We start from unsupervised instance segmentation masks on individual video frames. However, these single-frame segmentations exhibit temporal noise and their quality varies through the video. Therefore, we establish temporal coherence by identifying high-quality keymasks in the video by leveraging deep motion priors. The sparse keymask pseudo-annotations are then used to train a segmentation model for implicit mask propagation, for which we propose a Sparse-To-Dense Distillation approach aided by a Temporal DropLoss. After training the final model on the resulting dense labelset, our approach outperforms the current state-of-the-art across various benchmarks.