S2D: Destilação de Mascaras-Chave Esparsas para Densas para Segmentação de Vídeo por Instância Não Supervisionada
S2D: Sparse-To-Dense Keymask Distillation for Unsupervised Video Instance Segmentation
December 16, 2025
Autores: Leon Sick, Lukas Hoyer, Dominik Engel, Pedro Hermosilla, Timo Ropinski
cs.AI
Resumo
Nos últimos anos, o estado da arte em segmentação de instâncias em vídeo não supervisionada tem dependido fortemente de dados de vídeo sintéticos, gerados a partir de conjuntos de dados de imagens centrados em objetos, como o ImageNet. No entanto, a síntese de vídeos através do deslocamento e escalonamento artificial de máscaras de instâncias de imagem não consegue modelar com precisão o movimento realista nos vídeos, como mudanças de perspectiva, movimento de partes de uma ou várias instâncias, ou movimento da câmera. Para resolver esta questão, propomos um modelo de segmentação de instâncias em vídeo não supervisionado treinado exclusivamente com dados de vídeo reais. Partimos de máscaras de segmentação de instâncias não supervisionadas em quadros de vídeo individuais. Contudo, estas segmentações de quadro único exibem ruído temporal e a sua qualidade varia ao longo do vídeo. Por conseguinte, estabelecemos coerência temporal identificando *keymasks* (máscaras-chave) de alta qualidade no vídeo, aproveitando *priors* de movimento profundos. As pseudoanotações esparsas das *keymasks* são então utilizadas para treinar um modelo de segmentação para propagação implícita de máscaras, para o qual propomos uma Abordagem de Distilação Esparsa-Para-Densa auxiliada por uma *Temporal DropLoss*. Após o treinamento do modelo final no conjunto de rótulos densos resultante, a nossa abordagem supera o estado da arte atual em vários *benchmarks*.
English
In recent years, the state-of-the-art in unsupervised video instance segmentation has heavily relied on synthetic video data, generated from object-centric image datasets such as ImageNet. However, video synthesis by artificially shifting and scaling image instance masks fails to accurately model realistic motion in videos, such as perspective changes, movement by parts of one or multiple instances, or camera motion. To tackle this issue, we propose an unsupervised video instance segmentation model trained exclusively on real video data. We start from unsupervised instance segmentation masks on individual video frames. However, these single-frame segmentations exhibit temporal noise and their quality varies through the video. Therefore, we establish temporal coherence by identifying high-quality keymasks in the video by leveraging deep motion priors. The sparse keymask pseudo-annotations are then used to train a segmentation model for implicit mask propagation, for which we propose a Sparse-To-Dense Distillation approach aided by a Temporal DropLoss. After training the final model on the resulting dense labelset, our approach outperforms the current state-of-the-art across various benchmarks.