ChatPaper.aiChatPaper

Amélioration de la Segmentation d'Instances Vidéo non Supervisée par un Auto-Apprentissage Guidé par la Qualité Automatique

Boosting Unsupervised Video Instance Segmentation with Automatic Quality-Guided Self-Training

December 7, 2025
papers.authors: Kaixuan Lu, Mehmet Onurcan Kaya, Dim P. Papadopoulos
cs.AI

papers.abstract

La segmentation d'instances vidéo (VIS) est confrontée à d'importants défis d'annotation en raison de ses exigences duales de masques au niveau pixel et d'étiquettes de cohérence temporelle. Bien que les méthodes non supervisées récentes comme VideoCutLER éliminent les dépendances au flux optique grâce aux données synthétiques, elles restent limitées par l'écart de domaine synthétique-réel. Nous présentons AutoQ-VIS, un nouveau cadre non supervisé qui comble cet écart par un auto-apprentissage guidé par la qualité. Notre approche établit un système en boucle fermée entre la génération de pseudo-étiquettes et l'évaluation automatique de la qualité, permettant une adaptation progressive des vidéos synthétiques aux vidéos réelles. Les expériences démontrent des performances de pointe avec 52,6 AP₅₀ sur l'ensemble de validation YouTubeVIS-2019, surpassant VideoCutLER de 4,4 %, sans nécessiter aucune annotation humaine. Cela démontre la viabilité de l'auto-apprentissage sensible à la qualité pour la VIS non supervisée. Le code sera disponible à l'adresse https://github.com/wcbup/AutoQ-VIS.
English
Video Instance Segmentation (VIS) faces significant annotation challenges due to its dual requirements of pixel-level masks and temporal consistency labels. While recent unsupervised methods like VideoCutLER eliminate optical flow dependencies through synthetic data, they remain constrained by the synthetic-to-real domain gap. We present AutoQ-VIS, a novel unsupervised framework that bridges this gap through quality-guided self-training. Our approach establishes a closed-loop system between pseudo-label generation and automatic quality assessment, enabling progressive adaptation from synthetic to real videos. Experiments demonstrate state-of-the-art performance with 52.6 AP_{50} on YouTubeVIS-2019 val set, surpassing the previous state-of-the-art VideoCutLER by 4.4%, while requiring no human annotations. This demonstrates the viability of quality-aware self-training for unsupervised VIS. We will release the code at https://github.com/wcbup/AutoQ-VIS.
PDF121December 11, 2025