ChatPaper.aiChatPaper

Potenciamiento de la Segmentación de Instancias en Video No Supervisada mediante Autoentrenamiento Guiado por Calidad Automática

Boosting Unsupervised Video Instance Segmentation with Automatic Quality-Guided Self-Training

December 7, 2025
Autores: Kaixuan Lu, Mehmet Onurcan Kaya, Dim P. Papadopoulos
cs.AI

Resumen

La Segmentación de Instancias en Video (VIS) enfrenta desafíos significativos de anotación debido a sus requisitos duales de máscaras a nivel de píxel y etiquetas de consistencia temporal. Si bien métodos recientes no supervisados como VideoCutLER eliminan las dependencias del flujo óptico mediante datos sintéticos, siguen limitados por la brecha de dominio sintético-real. Presentamos AutoQ-VIS, un novedoso marco no supervisado que salva esta brecha mediante el autoaprendizaje guiado por calidad. Nuestro enfoque establece un sistema de bucle cerrado entre la generación de pseudoetiquetas y la evaluación automática de calidad, permitiendo una adaptación progresiva de videos sintéticos a reales. Los experimentos demuestran un rendimiento de vanguardia con 52.6 AP_{50} en el conjunto de validación de YouTubeVIS-2019, superando en un 4.4% al anterior estado del arte, VideoCutLER, sin requerir anotaciones humanas. Esto demuestra la viabilidad del autoaprendizaje consciente de la calidad para VIS no supervisado. El código se liberará en https://github.com/wcbup/AutoQ-VIS.
English
Video Instance Segmentation (VIS) faces significant annotation challenges due to its dual requirements of pixel-level masks and temporal consistency labels. While recent unsupervised methods like VideoCutLER eliminate optical flow dependencies through synthetic data, they remain constrained by the synthetic-to-real domain gap. We present AutoQ-VIS, a novel unsupervised framework that bridges this gap through quality-guided self-training. Our approach establishes a closed-loop system between pseudo-label generation and automatic quality assessment, enabling progressive adaptation from synthetic to real videos. Experiments demonstrate state-of-the-art performance with 52.6 AP_{50} on YouTubeVIS-2019 val set, surpassing the previous state-of-the-art VideoCutLER by 4.4%, while requiring no human annotations. This demonstrates the viability of quality-aware self-training for unsupervised VIS. We will release the code at https://github.com/wcbup/AutoQ-VIS.
PDF121December 11, 2025