ChatPaper.aiChatPaper

S2D : Distillation de masques clés de type Sparse-à-Dense pour la segmentation d'instances vidéo non supervisée

S2D: Sparse-To-Dense Keymask Distillation for Unsupervised Video Instance Segmentation

December 16, 2025
papers.authors: Leon Sick, Lukas Hoyer, Dominik Engel, Pedro Hermosilla, Timo Ropinski
cs.AI

papers.abstract

Ces dernières années, l'état de l'art en segmentation d'instances vidéo non supervisée repose largement sur des données vidéo synthétiques, générées à partir de jeux de données d'images centrés sur les objets comme ImageNet. Cependant, la synthèse vidéo par décalage et mise à l'échelle artificiels des masques d'instances d'images échoue à modéliser avec précision le mouvement réaliste dans les vidéos, tel que les changements de perspective, le mouvement de parties d'une ou plusieurs instances, ou le mouvement de la caméra. Pour résoudre ce problème, nous proposons un modèle de segmentation d'instances vidéo non supervisé entraîné exclusivement sur des données vidéo réelles. Nous partons de masques de segmentation d'instances non supervisés sur des images vidéo individuelles. Cependant, ces segmentations mono-image présentent un bruit temporel et leur qualité varie tout au long de la vidéo. Par conséquent, nous établissons une cohérence temporelle en identifiant des masques-clés de haute qualité dans la vidéo en exploitant des préacquis de mouvement profonds. Les pseudo-annotations éparses des masques-clés sont ensuite utilisées pour entraîner un modèle de segmentation pour une propagation implicite des masques, pour laquelle nous proposons une approche de Distillation Éparse-Vers-Dense aidée par une Temporal DropLoss. Après l'entraînement du modèle final sur l'ensemble d'étiquettes dense résultant, notre approche surpasse l'état de l'art actuel sur diverses benchmarks.
English
In recent years, the state-of-the-art in unsupervised video instance segmentation has heavily relied on synthetic video data, generated from object-centric image datasets such as ImageNet. However, video synthesis by artificially shifting and scaling image instance masks fails to accurately model realistic motion in videos, such as perspective changes, movement by parts of one or multiple instances, or camera motion. To tackle this issue, we propose an unsupervised video instance segmentation model trained exclusively on real video data. We start from unsupervised instance segmentation masks on individual video frames. However, these single-frame segmentations exhibit temporal noise and their quality varies through the video. Therefore, we establish temporal coherence by identifying high-quality keymasks in the video by leveraging deep motion priors. The sparse keymask pseudo-annotations are then used to train a segmentation model for implicit mask propagation, for which we propose a Sparse-To-Dense Distillation approach aided by a Temporal DropLoss. After training the final model on the resulting dense labelset, our approach outperforms the current state-of-the-art across various benchmarks.
PDF01December 18, 2025