자동 품질 기반 자기 훈련을 통한 비지도 비디오 인스턴스 분할 성능 향상
Boosting Unsupervised Video Instance Segmentation with Automatic Quality-Guided Self-Training
December 7, 2025
저자: Kaixuan Lu, Mehmet Onurcan Kaya, Dim P. Papadopoulos
cs.AI
초록
Video Instance Segmentation(VIS)은 픽셀 수준의 마스크와 시간적 일관성 레이블이라는 이중 요구 사항으로 인해 중요한 어노테이션 과제에 직면해 있습니다. VideoCutLER와 같은 최근의 비지도 학습 방법이 합성 데이터를 통해 광학 흐름 의존성을 제거했지만, 여전히 합성-실제 도메인 간격에 의해 제약을 받습니다. 우리는 품질 주도 자기 훈련을 통해 이 간격을 해소하는 새로운 비지도 학습 프레임워크인 AutoQ-VIS를 제시합니다. 우리의 접근 방식은 가짜 레이블 생성과 자동 품질 평가 사이에 폐쇄형 시스템을 구축하여 합성 비디오에서 실제 비디오로의 점진적 적응을 가능하게 합니다. 실험 결과, YouTubeVIS-2019 검증 세트에서 52.6 AP_{50}의 최첨단 성능을 보여 인간 어노테이션 없이 기존 최고 방법인 VideoCutLER를 4.4% 능가함을 입증했습니다. 이는 비지도 VIS를 위한 품질 인식 자기 훈련의 실현 가능성을 보여줍니다. 코드는 https://github.com/wcbup/AutoQ-VIS 에서 공개할 예정입니다.
English
Video Instance Segmentation (VIS) faces significant annotation challenges due to its dual requirements of pixel-level masks and temporal consistency labels. While recent unsupervised methods like VideoCutLER eliminate optical flow dependencies through synthetic data, they remain constrained by the synthetic-to-real domain gap. We present AutoQ-VIS, a novel unsupervised framework that bridges this gap through quality-guided self-training. Our approach establishes a closed-loop system between pseudo-label generation and automatic quality assessment, enabling progressive adaptation from synthetic to real videos. Experiments demonstrate state-of-the-art performance with 52.6 AP_{50} on YouTubeVIS-2019 val set, surpassing the previous state-of-the-art VideoCutLER by 4.4%, while requiring no human annotations. This demonstrates the viability of quality-aware self-training for unsupervised VIS. We will release the code at https://github.com/wcbup/AutoQ-VIS.