ChatPaper.aiChatPaper

Повышение эффективности неконтролируемой сегментации видеоэкземпляров с помощью автоматического самообучения с контролем качества

Boosting Unsupervised Video Instance Segmentation with Automatic Quality-Guided Self-Training

December 7, 2025
Авторы: Kaixuan Lu, Mehmet Onurcan Kaya, Dim P. Papadopoulos
cs.AI

Аннотация

Сегментация экземпляров на видео (Video Instance Segmentation, VIS) сталкивается со значительными проблемами аннотирования из-за двойных требований к маскам на уровне пикселей и меткам временной согласованности. Хотя современные неконтролируемые методы, такие как VideoCutLER, устраняют зависимость от оптического потока с помощью синтетических данных, они остаются ограниченными разрывом между синтетическим и реальным доменами. Мы представляем AutoQ-VIS — новую неконтролируемую архитектуру, которая преодолевает этот разрыв с помощью самообучения, управляемого качеством. Наш подход создает замкнутую систему между генерацией псевдометок и автоматической оценкой качества, обеспечивая прогрессивную адаптацию от синтетических к реальным видео. Эксперименты демонстрируют наилучшие результаты с показателем 52.6 AP_{50} на наборе YouTubeVIS-2019 val, превосходя предыдущий state-of-the-art метод VideoCutLER на 4.4%, при этом не требуя человеческих аннотаций. Это подтверждает жизнеспособность самообучения с учетом качества для неконтролируемой VIS. Код будет доступен по адресу https://github.com/wcbup/AutoQ-VIS.
English
Video Instance Segmentation (VIS) faces significant annotation challenges due to its dual requirements of pixel-level masks and temporal consistency labels. While recent unsupervised methods like VideoCutLER eliminate optical flow dependencies through synthetic data, they remain constrained by the synthetic-to-real domain gap. We present AutoQ-VIS, a novel unsupervised framework that bridges this gap through quality-guided self-training. Our approach establishes a closed-loop system between pseudo-label generation and automatic quality assessment, enabling progressive adaptation from synthetic to real videos. Experiments demonstrate state-of-the-art performance with 52.6 AP_{50} on YouTubeVIS-2019 val set, surpassing the previous state-of-the-art VideoCutLER by 4.4%, while requiring no human annotations. This demonstrates the viability of quality-aware self-training for unsupervised VIS. We will release the code at https://github.com/wcbup/AutoQ-VIS.
PDF121December 11, 2025