ChatPaper.aiChatPaper

S2D: Дистилляция разреженных ключевых масок в плотные для неконтролируемой видеосегментации экземпляров

S2D: Sparse-To-Dense Keymask Distillation for Unsupervised Video Instance Segmentation

December 16, 2025
Авторы: Leon Sick, Lukas Hoyer, Dominik Engel, Pedro Hermosilla, Timo Ropinski
cs.AI

Аннотация

В последние годы передовые методы в области неконтролируемой сегментации экземпляров на видео в значительной степени опираются на синтетические видеоданные, сгенерированные из ориентированных на объекты наборов изображений, таких как ImageNet. Однако синтез видео путем искусственного сдвига и масштабирования масок экземпляров изображений не позволяет точно моделировать реалистичное движение в видео, такое как изменение перспективы, движение частей одного или нескольких экземпляров или движение камеры. Для решения этой проблемы мы предлагаем модель неконтролируемой сегментации экземпляров на видео, обучаемую исключительно на реальных видеоданных. Мы исходим из неконтролируемых масок сегментации экземпляров на отдельных кадрах видео. Однако эти сегментации на одиночных кадрах демонстрируют временной шум, и их качество варьируется на протяжении видео. Поэтому мы устанавливаем временную согласованность, выявляя высококачественные ключевые маски в видео с использованием глубоких априорных моделей движения. Разреженные псевдо-аннотации ключевых масок затем используются для обучения модели сегментации для неявного распространения масок, для чего мы предлагаем подход Sparse-To-Dense Distillation (Дистилляция от разреженного к плотному) с использованием Temporal DropLoss (Временная потеря отсева). После обучения итоговой модели на полученном плотном наборе меток наш подход превосходит современные state-of-the-art методы в различных тестах.
English
In recent years, the state-of-the-art in unsupervised video instance segmentation has heavily relied on synthetic video data, generated from object-centric image datasets such as ImageNet. However, video synthesis by artificially shifting and scaling image instance masks fails to accurately model realistic motion in videos, such as perspective changes, movement by parts of one or multiple instances, or camera motion. To tackle this issue, we propose an unsupervised video instance segmentation model trained exclusively on real video data. We start from unsupervised instance segmentation masks on individual video frames. However, these single-frame segmentations exhibit temporal noise and their quality varies through the video. Therefore, we establish temporal coherence by identifying high-quality keymasks in the video by leveraging deep motion priors. The sparse keymask pseudo-annotations are then used to train a segmentation model for implicit mask propagation, for which we propose a Sparse-To-Dense Distillation approach aided by a Temporal DropLoss. After training the final model on the resulting dense labelset, our approach outperforms the current state-of-the-art across various benchmarks.
PDF01December 18, 2025