ChatPaper.aiChatPaper

Verbesserung der unüberwachten Videoinstanzsegmentierung durch automatisches qualitätsgesteuertes Selbsttraining

Boosting Unsupervised Video Instance Segmentation with Automatic Quality-Guided Self-Training

December 7, 2025
papers.authors: Kaixuan Lu, Mehmet Onurcan Kaya, Dim P. Papadopoulos
cs.AI

papers.abstract

Video Instance Segmentation (VIS) steht aufgrund der doppelten Anforderungen an Pixelmasken und zeitlich konsistente Labels vor erheblichen Annotationsherausforderungen. Während neuere unüberwachte Methoden wie VideoCutLER durch synthetische Daten die Abhängigkeit von optischem Fluss beseitigen, bleiben sie durch die Domänenlücke zwischen synthetischen und realen Daten eingeschränkt. Wir stellen AutoQ-VIS vor, ein neuartiges unüberwachtes Framework, das diese Lücke durch qualitätsgesteuertes Selbsttraining überbrückt. Unser Ansatz etabliert ein geschlossenes System zwischen der Generierung von Pseudo-Labels und der automatischen Qualitätsbewertung, das eine progressive Anpassung von synthetischen zu realen Videos ermöglicht. Experimente zeigen state-of-the-art Leistung mit 52,6 AP₅₀ auf dem YouTubeVIS-2019 Val-Set, was den bisherigen State-of-the-Art VideoCutLER um 4,4 % übertrifft, ohne menschliche Annotationen zu benötigen. Dies demonstriert die Tragfähigkeit qualitätsbewussten Selbsttrainings für unüberwachtes VIS. Den Code werden wir unter https://github.com/wcbup/AutoQ-VIS veröffentlichen.
English
Video Instance Segmentation (VIS) faces significant annotation challenges due to its dual requirements of pixel-level masks and temporal consistency labels. While recent unsupervised methods like VideoCutLER eliminate optical flow dependencies through synthetic data, they remain constrained by the synthetic-to-real domain gap. We present AutoQ-VIS, a novel unsupervised framework that bridges this gap through quality-guided self-training. Our approach establishes a closed-loop system between pseudo-label generation and automatic quality assessment, enabling progressive adaptation from synthetic to real videos. Experiments demonstrate state-of-the-art performance with 52.6 AP_{50} on YouTubeVIS-2019 val set, surpassing the previous state-of-the-art VideoCutLER by 4.4%, while requiring no human annotations. This demonstrates the viability of quality-aware self-training for unsupervised VIS. We will release the code at https://github.com/wcbup/AutoQ-VIS.
PDF121December 11, 2025