Segmentación Panóptica No Supervisada Centrada en Escenas
Scene-Centric Unsupervised Panoptic Segmentation
April 2, 2025
Autores: Oliver Hahn, Christoph Reich, Nikita Araslanov, Daniel Cremers, Christian Rupprecht, Stefan Roth
cs.AI
Resumen
La segmentación panóptica no supervisada tiene como objetivo dividir una imagen en regiones semánticamente significativas e instancias de objetos distintas sin entrenamiento en datos anotados manualmente. A diferencia de trabajos previos sobre comprensión panóptica de escenas no supervisada, eliminamos la necesidad de datos de entrenamiento centrados en objetos, permitiendo la comprensión no supervisada de escenas complejas. Para ello, presentamos el primer método panóptico no supervisado que se entrena directamente en imágenes centradas en escenas. En particular, proponemos un enfoque para obtener etiquetas pseudo panópticas de alta resolución en datos complejos centrados en escenas, combinando representaciones visuales, profundidad y señales de movimiento. La utilización tanto del entrenamiento con etiquetas pseudo como de una estrategia de autoentrenamiento panóptico da como resultado un enfoque novedoso que predice con precisión la segmentación panóptica de escenas complejas sin requerir anotaciones humanas. Nuestro enfoque mejora significativamente la calidad panóptica, superando, por ejemplo, el estado del arte reciente en segmentación panóptica no supervisada en Cityscapes en 9.4 puntos porcentuales en PQ.
English
Unsupervised panoptic segmentation aims to partition an image into
semantically meaningful regions and distinct object instances without training
on manually annotated data. In contrast to prior work on unsupervised panoptic
scene understanding, we eliminate the need for object-centric training data,
enabling the unsupervised understanding of complex scenes. To that end, we
present the first unsupervised panoptic method that directly trains on
scene-centric imagery. In particular, we propose an approach to obtain
high-resolution panoptic pseudo labels on complex scene-centric data, combining
visual representations, depth, and motion cues. Utilizing both pseudo-label
training and a panoptic self-training strategy yields a novel approach that
accurately predicts panoptic segmentation of complex scenes without requiring
any human annotations. Our approach significantly improves panoptic quality,
e.g., surpassing the recent state of the art in unsupervised panoptic
segmentation on Cityscapes by 9.4% points in PQ.Summary
AI-Generated Summary