ChatPaper.aiChatPaper

品質誘導型自己学習による教師なしビデオインスタンスセグメンテーションの性能向上

Boosting Unsupervised Video Instance Segmentation with Automatic Quality-Guided Self-Training

December 7, 2025
著者: Kaixuan Lu, Mehmet Onurcan Kaya, Dim P. Papadopoulos
cs.AI

要旨

Video Instance Segmentation (VIS)は、ピクセルレベルのマスクと時間的一貫性ラベルの二重の要件から、アノテーションにおいて大きな課題に直面している。最近のVideoCutLERのような教師なし手法は合成データを通じてオプティカルフローへの依存を排除しているが、合成データと実データのドメインギャップによって依然制約を受けている。本論文では、品質誘導型自己学習を通じてこのギャップを埋める新しい教師なしフレームワークであるAutoQ-VISを提案する。本手法は擬似ラベル生成と自動品質評価の間の閉ループシステムを構築し、合成ビデオから実ビデオへの段階的適応を可能にする。実験では、YouTubeVIS-2019 valセットにおいて52.6 AP_{50}を達成し、従来の最先端手法であるVideoCutLERを4.4%上回る性能を示した。これにより、教師なしVISにおける品質認識型自己学習の有効性が実証された。コードはhttps://github.com/wcbup/AutoQ-VISで公開予定である。
English
Video Instance Segmentation (VIS) faces significant annotation challenges due to its dual requirements of pixel-level masks and temporal consistency labels. While recent unsupervised methods like VideoCutLER eliminate optical flow dependencies through synthetic data, they remain constrained by the synthetic-to-real domain gap. We present AutoQ-VIS, a novel unsupervised framework that bridges this gap through quality-guided self-training. Our approach establishes a closed-loop system between pseudo-label generation and automatic quality assessment, enabling progressive adaptation from synthetic to real videos. Experiments demonstrate state-of-the-art performance with 52.6 AP_{50} on YouTubeVIS-2019 val set, surpassing the previous state-of-the-art VideoCutLER by 4.4%, while requiring no human annotations. This demonstrates the viability of quality-aware self-training for unsupervised VIS. We will release the code at https://github.com/wcbup/AutoQ-VIS.
PDF121December 11, 2025