S2D: Sparse-To-Dense Keymask-Distillation für unüberwachte Videoinstanzsegmentierung
S2D: Sparse-To-Dense Keymask Distillation for Unsupervised Video Instance Segmentation
December 16, 2025
papers.authors: Leon Sick, Lukas Hoyer, Dominik Engel, Pedro Hermosilla, Timo Ropinski
cs.AI
papers.abstract
In den letzten Jahren stützte sich der Stand der Technik bei der unüberwachten Video-Instanzsegmentierung stark auf synthetische Videodaten, die aus objektzentrierten Bilddatensätzen wie ImageNet generiert wurden. Die Videosynthese durch künstliches Verschieben und Skalieren von Bildinstanzmasken bildet jedoch realistische Bewegungen in Videos, wie Perspektivenwechsel, Bewegung von Teilen einer oder mehrerer Instanzen oder Kamerabewegung, nicht genau ab. Um dieses Problem zu lösen, schlagen wir ein unüberwachtes Video-Instanzsegmentierungsmodell vor, das ausschließlich auf echten Videodaten trainiert wird. Wir beginnen mit unüberwachten Instanzsegmentierungsmasken in einzelnen Videobildern. Diese Einzelbildsegmentierungen weisen jedoch zeitliches Rauschen auf und ihre Qualität variiert throughout des Videos. Daher stellen wir zeitliche Kohärenz her, indem wir hochwertige Schlüsselmasken im Video identifizieren, indem wir tiefe Bewegungsprioritäten nutzen. Die spärlichen Schlüsselmasken-Pseudoannotationen werden dann verwendet, um ein Segmentierungsmodell für implizite Maskenpropagierung zu trainieren, für das wir einen Sparse-To-Dense-Distillationsansatz vorschlagen, unterstützt durch einen Temporal DropLoss. Nach dem Training des endgültigen Modells auf dem resultierenden dichten Labeldatensatz übertrifft unser Ansatz den aktuellen Stand der Technik in verschiedenen Benchmarks.
English
In recent years, the state-of-the-art in unsupervised video instance segmentation has heavily relied on synthetic video data, generated from object-centric image datasets such as ImageNet. However, video synthesis by artificially shifting and scaling image instance masks fails to accurately model realistic motion in videos, such as perspective changes, movement by parts of one or multiple instances, or camera motion. To tackle this issue, we propose an unsupervised video instance segmentation model trained exclusively on real video data. We start from unsupervised instance segmentation masks on individual video frames. However, these single-frame segmentations exhibit temporal noise and their quality varies through the video. Therefore, we establish temporal coherence by identifying high-quality keymasks in the video by leveraging deep motion priors. The sparse keymask pseudo-annotations are then used to train a segmentation model for implicit mask propagation, for which we propose a Sparse-To-Dense Distillation approach aided by a Temporal DropLoss. After training the final model on the resulting dense labelset, our approach outperforms the current state-of-the-art across various benchmarks.