ChatPaper.aiChatPaper

Miglioramento della Segmentazione di Istanze Video non Supervisionata con Auto-Addestramento Guidato dalla Qualità Automatica

Boosting Unsupervised Video Instance Segmentation with Automatic Quality-Guided Self-Training

December 7, 2025
Autori: Kaixuan Lu, Mehmet Onurcan Kaya, Dim P. Papadopoulos
cs.AI

Abstract

La Video Instance Segmentation (VIS) affronta notevoli sfide annotative a causa dei suoi duplici requisiti di maschere a livello di pixel ed etichette di coerenza temporale. Sebbene i recenti metodi non supervisionati come VideoCutLER eliminino le dipendenze dal flusso ottico attraverso dati sintetici, essi rimangono limitati dal divario di dominio sintetico-reale. Presentiamo AutoQ-VIS, un nuovo framework non supervisionato che colma questo divario attraverso l'auto-addestramento guidato dalla qualità. Il nostro approccio stabilisce un sistema a ciclo chiuso tra la generazione di pseudo-etichette e la valutazione automatica della qualità, consentendo un adattamento progressivo dai video sintetici a quelli reali. Gli esperimenti dimostrano prestazioni all'avanguardia con 52.6 AP₅₀ sul set di validazione di YouTubeVIS-2019, superando del 4.4% il precedente state-of-the-art VideoCutLER, pur non richiedendo annotazioni umane. Ciò dimostra la fattibilità dell'auto-addestramento consapevole della qualità per la VIS non supervisionata. Rilasceremo il codice su https://github.com/wcbup/AutoQ-VIS.
English
Video Instance Segmentation (VIS) faces significant annotation challenges due to its dual requirements of pixel-level masks and temporal consistency labels. While recent unsupervised methods like VideoCutLER eliminate optical flow dependencies through synthetic data, they remain constrained by the synthetic-to-real domain gap. We present AutoQ-VIS, a novel unsupervised framework that bridges this gap through quality-guided self-training. Our approach establishes a closed-loop system between pseudo-label generation and automatic quality assessment, enabling progressive adaptation from synthetic to real videos. Experiments demonstrate state-of-the-art performance with 52.6 AP_{50} on YouTubeVIS-2019 val set, surpassing the previous state-of-the-art VideoCutLER by 4.4%, while requiring no human annotations. This demonstrates the viability of quality-aware self-training for unsupervised VIS. We will release the code at https://github.com/wcbup/AutoQ-VIS.
PDF121December 11, 2025