ChatPaper.aiChatPaper

S2D: 教師なしビデオインスタンスセグメンテーションのためのスパース-ト-デンスキーマスク蒸留

S2D: Sparse-To-Dense Keymask Distillation for Unsupervised Video Instance Segmentation

December 16, 2025
著者: Leon Sick, Lukas Hoyer, Dominik Engel, Pedro Hermosilla, Timo Ropinski
cs.AI

要旨

近年、教師なしビデオインスタンスセグメンテーションの最先端技術は、ImageNetなどのオブジェクト中心画像データセットから生成された合成ビデオデータに大きく依存してきた。しかし、画像インスタンスマスクを人為的にシフトおよびスケーリングするビデオ合成手法は、視点の変化、単一または複数インスタンスの部分的な動き、カメラ運動など、現実のビデオにおける正確な動きをモデル化できていない。この問題に対処するため、我々は実写ビデオデータのみで学習した教師なしビデオインスタンスセグメンテーションモデルを提案する。まず個々のビデオフレームに対する教師なしインスタンスセグメンテーションマスクを出発点とする。ただし、これらの単一フレームセグメンテーションは時間的なノイズを含み、その品質はビデオ内でばらつきがある。そこで、深層モーション事前知識を活用してビデオ内の高品質なキーマスクを特定することで、時間的一貫性を確立する。疎なキーマスク擬似アノテーションは、暗黙的なマスク伝搬のためのセグメンテーションモデル学習に用いられ、これにはTemporal DropLossを援用したSparse-To-Dense Distillationアプローチを提案する。生成された高密度ラベルセットで最終モデルを学習後、本手法は様々なベンチマークにおいて現在の最先端技術を凌駕する性能を示す。
English
In recent years, the state-of-the-art in unsupervised video instance segmentation has heavily relied on synthetic video data, generated from object-centric image datasets such as ImageNet. However, video synthesis by artificially shifting and scaling image instance masks fails to accurately model realistic motion in videos, such as perspective changes, movement by parts of one or multiple instances, or camera motion. To tackle this issue, we propose an unsupervised video instance segmentation model trained exclusively on real video data. We start from unsupervised instance segmentation masks on individual video frames. However, these single-frame segmentations exhibit temporal noise and their quality varies through the video. Therefore, we establish temporal coherence by identifying high-quality keymasks in the video by leveraging deep motion priors. The sparse keymask pseudo-annotations are then used to train a segmentation model for implicit mask propagation, for which we propose a Sparse-To-Dense Distillation approach aided by a Temporal DropLoss. After training the final model on the resulting dense labelset, our approach outperforms the current state-of-the-art across various benchmarks.
PDF01December 18, 2025