Potencialização da Segmentação de Instâncias em Vídeo Não Supervisionada com Auto-Treinamento Guiado por Qualidade Automática

Resumo

A Segmentação de Instâncias em Vídeo (VIS) enfrenta desafios significativos de anotação devido aos seus requisitos duplos de máscaras em nível de pixel e rótulos de consistência temporal. Embora métodos não supervisionados recentes como o VideoCutLER eliminem dependências de fluxo óptico através de dados sintéticos, eles permanecem limitados pela diferença de domínio entre sintético e real. Apresentamos o AutoQ-VIS, uma nova estrutura não supervisionada que preenche esta lacuna através de auto-treinamento guiado por qualidade. Nossa abordagem estabelece um sistema de ciclo fechado entre a geração de pseudo-rótulos e a avaliação automática de qualidade, permitindo uma adaptação progressiva de vídeos sintéticos para reais. Os experimentos demonstram um desempenho de última geração com 52.6 AP_{50} no conjunto de validação do YouTubeVIS-2019, superando o VideoCutLER, anteriormente o estado da arte, em 4.4%, sem exigir anotações humanas. Isto demonstra a viabilidade do auto-treinamento consciente da qualidade para VIS não supervisionado. O código será disponibilizado em https://github.com/wcbup/AutoQ-VIS.

English

Video Instance Segmentation (VIS) faces significant annotation challenges due to its dual requirements of pixel-level masks and temporal consistency labels. While recent unsupervised methods like VideoCutLER eliminate optical flow dependencies through synthetic data, they remain constrained by the synthetic-to-real domain gap. We present AutoQ-VIS, a novel unsupervised framework that bridges this gap through quality-guided self-training. Our approach establishes a closed-loop system between pseudo-label generation and automatic quality assessment, enabling progressive adaptation from synthetic to real videos. Experiments demonstrate state-of-the-art performance with 52.6 AP_{50} on YouTubeVIS-2019 val set, surpassing the previous state-of-the-art VideoCutLER by 4.4%, while requiring no human annotations. This demonstrates the viability of quality-aware self-training for unsupervised VIS. We will release the code at https://github.com/wcbup/AutoQ-VIS.

Potencialização da Segmentação de Instâncias em Vídeo Não Supervisionada com Auto-Treinamento Guiado por Qualidade Automática

Boosting Unsupervised Video Instance Segmentation with Automatic Quality-Guided Self-Training

Resumo

Support