S2D: Distillazione Sparse-To-Dense di Keymask per la Segmentazione di Istanze Video non Supervisionata
S2D: Sparse-To-Dense Keymask Distillation for Unsupervised Video Instance Segmentation
December 16, 2025
Autori: Leon Sick, Lukas Hoyer, Dominik Engel, Pedro Hermosilla, Timo Ropinski
cs.AI
Abstract
Negli ultimi anni, lo stato dell'arte nella segmentazione di istanza video non supervisionata si è basato pesantemente su dati video sintetici, generati da dataset di immagini centrati sugli oggetti come ImageNet. Tuttavia, la sintesi video ottenuta spostando e scalando artificialmente le maschere di istanza delle immagini non riesce a modellare accuratamente il movimento realistico nei video, come i cambiamenti di prospettiva, il movimento di parti di una o più istanze, o il movimento della telecamera. Per affrontare questo problema, proponiamo un modello di segmentazione di istanza video non supervisionato addestrato esclusivamente su dati video reali. Partiamo da maschere di segmentazione di istanza non supervisionate su singoli fotogrammi video. Tuttavia, queste segmentazioni a fotogramma singolo presentano rumore temporale e la loro qualità varia lungo il video. Pertanto, stabiliamo una coerenza temporale identificando maschere-chiave di alta qualità nel video sfruttando *deep motion priors*. Le pseudo-annotazioni sparse delle maschere-chiave vengono poi utilizzate per addestrare un modello di segmentazione per la propagazione implicita delle maschere, per la quale proponiamo un approccio di Distillazione da Sparso a Denso coadiuvato da una *Temporal DropLoss*. Dopo l'addestramento del modello finale sul set di etichette dense risultante, il nostro approccio supera lo stato dell'arte corrente su varie benchmark.
English
In recent years, the state-of-the-art in unsupervised video instance segmentation has heavily relied on synthetic video data, generated from object-centric image datasets such as ImageNet. However, video synthesis by artificially shifting and scaling image instance masks fails to accurately model realistic motion in videos, such as perspective changes, movement by parts of one or multiple instances, or camera motion. To tackle this issue, we propose an unsupervised video instance segmentation model trained exclusively on real video data. We start from unsupervised instance segmentation masks on individual video frames. However, these single-frame segmentations exhibit temporal noise and their quality varies through the video. Therefore, we establish temporal coherence by identifying high-quality keymasks in the video by leveraging deep motion priors. The sparse keymask pseudo-annotations are then used to train a segmentation model for implicit mask propagation, for which we propose a Sparse-To-Dense Distillation approach aided by a Temporal DropLoss. After training the final model on the resulting dense labelset, our approach outperforms the current state-of-the-art across various benchmarks.