S2D: Destilación de Mascaras Clave de Dispersa a Densa para la Segmentación de Instancias en Video No Supervisada
S2D: Sparse-To-Dense Keymask Distillation for Unsupervised Video Instance Segmentation
December 16, 2025
Autores: Leon Sick, Lukas Hoyer, Dominik Engel, Pedro Hermosilla, Timo Ropinski
cs.AI
Resumen
En los últimos años, los avances más punteros en segmentación de instancias en vídeo no supervisada han dependido en gran medida de datos de vídeo sintéticos, generados a partir de conjuntos de datos de imágenes centrados en objetos, como ImageNet. Sin embargo, la síntesis de vídeo mediante el desplazamiento y escalado artificial de las máscaras de instancias de imagen no logra modelar con precisión el movimiento realista en los vídeos, como los cambios de perspectiva, el movimiento de partes de una o múltiples instancias, o el movimiento de la cámara. Para abordar este problema, proponemos un modelo de segmentación de instancias en vídeo no supervisado entrenado exclusivamente con datos de vídeo reales. Partimos de máscaras de segmentación de instancias no supervisadas en fotogramas individuales del vídeo. No obstante, estas segmentaciones de fotograma único presentan ruido temporal y su calidad varía a lo largo del vídeo. Por lo tanto, establecemos coherencia temporal identificando máscaras clave de alta calidad en el vídeo aprovechando *priors* de movimiento profundos. Las pseudoanotaciones dispersas de las máscaras clave se utilizan luego para entrenar un modelo de segmentación para la propagación implícita de máscaras, para lo cual proponemos un enfoque de Distilación de Disperso a Denso asistido por una Pérdida por Omisión Temporal. Tras entrenar el modelo final con el conjunto de etiquetas densas resultante, nuestro enfoque supera al estado del arte actual en varios *benchmarks*.
English
In recent years, the state-of-the-art in unsupervised video instance segmentation has heavily relied on synthetic video data, generated from object-centric image datasets such as ImageNet. However, video synthesis by artificially shifting and scaling image instance masks fails to accurately model realistic motion in videos, such as perspective changes, movement by parts of one or multiple instances, or camera motion. To tackle this issue, we propose an unsupervised video instance segmentation model trained exclusively on real video data. We start from unsupervised instance segmentation masks on individual video frames. However, these single-frame segmentations exhibit temporal noise and their quality varies through the video. Therefore, we establish temporal coherence by identifying high-quality keymasks in the video by leveraging deep motion priors. The sparse keymask pseudo-annotations are then used to train a segmentation model for implicit mask propagation, for which we propose a Sparse-To-Dense Distillation approach aided by a Temporal DropLoss. After training the final model on the resulting dense labelset, our approach outperforms the current state-of-the-art across various benchmarks.