ChatPaper.aiChatPaper

Verbetering van Onbewaakte Video-Instantiesegmentatie met Automatische Kwaliteitsgestuurde Zelf-training

Boosting Unsupervised Video Instance Segmentation with Automatic Quality-Guided Self-Training

December 7, 2025
Auteurs: Kaixuan Lu, Mehmet Onurcan Kaya, Dim P. Papadopoulos
cs.AI

Samenvatting

Video Instance Segmentation (VIS) wordt geconfronteerd met aanzienlijke annotatie-uitdagingen vanwege de dubbele vereisten van pixelgebaseerde maskers en temporele consistentielabels. Hoewel recente ongesuperviseerde methoden zoals VideoCutLER afhankelijkheden van optische stroming opheffen door synthetische data, blijven ze beperkt door de synthetisch-naar-echt domeinkloof. Wij presenteren AutoQ-VIS, een nieuw ongesuperviseerd raamwerk dat deze kloof overbrugt via kwaliteit-gestuurd zelftraining. Onze aanpak creëert een gesloten-lussysteem tussen pseudo-labelgeneratie en automatische kwaliteitsbeoordeling, waardoor progressieve adaptatie van synthetische naar echte video's mogelijk wordt. Experimenten tonen state-of-the-art prestaties met 52.6 AP_{50} op de YouTubeVIS-2019 validatieset, wat een verbetering van 4.4% is ten opzichte van de vorige state-of-the-art VideoCutLER, zonder menselijke annotaties te vereisen. Dit demonstreert de haalbaarheid van kwaliteit-bewuste zelftraining voor ongesuperviseerde VIS. De code wordt vrijgegeven op https://github.com/wcbup/AutoQ-VIS.
English
Video Instance Segmentation (VIS) faces significant annotation challenges due to its dual requirements of pixel-level masks and temporal consistency labels. While recent unsupervised methods like VideoCutLER eliminate optical flow dependencies through synthetic data, they remain constrained by the synthetic-to-real domain gap. We present AutoQ-VIS, a novel unsupervised framework that bridges this gap through quality-guided self-training. Our approach establishes a closed-loop system between pseudo-label generation and automatic quality assessment, enabling progressive adaptation from synthetic to real videos. Experiments demonstrate state-of-the-art performance with 52.6 AP_{50} on YouTubeVIS-2019 val set, surpassing the previous state-of-the-art VideoCutLER by 4.4%, while requiring no human annotations. This demonstrates the viability of quality-aware self-training for unsupervised VIS. We will release the code at https://github.com/wcbup/AutoQ-VIS.
PDF121December 11, 2025