Segmentação Panóptica Não Supervisionada Centrada em Cenas
Scene-Centric Unsupervised Panoptic Segmentation
April 2, 2025
Autores: Oliver Hahn, Christoph Reich, Nikita Araslanov, Daniel Cremers, Christian Rupprecht, Stefan Roth
cs.AI
Resumo
A segmentação panóptica não supervisionada tem como objetivo dividir uma imagem em regiões semanticamente significativas e instâncias de objetos distintas sem treinamento em dados anotados manualmente. Em contraste com trabalhos anteriores sobre compreensão de cenas panópticas não supervisionadas, eliminamos a necessidade de dados de treinamento centrados em objetos, permitindo a compreensão não supervisionada de cenas complexas. Para isso, apresentamos o primeiro método panóptico não supervisionado que treina diretamente em imagens centradas em cenas. Em particular, propomos uma abordagem para obter rótulos pseudo panópticos de alta resolução em dados complexos centrados em cenas, combinando representações visuais, profundidade e pistas de movimento. A utilização tanto do treinamento com rótulos pseudo quanto de uma estratégia de auto-treinamento panóptico resulta em uma abordagem inovadora que prevê com precisão a segmentação panóptica de cenas complexas sem exigir nenhuma anotação humana. Nossa abordagem melhora significativamente a qualidade panóptica, superando, por exemplo, o estado da arte recente em segmentação panóptica não supervisionada no Cityscapes em 9,4 pontos percentuais em PQ.
English
Unsupervised panoptic segmentation aims to partition an image into
semantically meaningful regions and distinct object instances without training
on manually annotated data. In contrast to prior work on unsupervised panoptic
scene understanding, we eliminate the need for object-centric training data,
enabling the unsupervised understanding of complex scenes. To that end, we
present the first unsupervised panoptic method that directly trains on
scene-centric imagery. In particular, we propose an approach to obtain
high-resolution panoptic pseudo labels on complex scene-centric data, combining
visual representations, depth, and motion cues. Utilizing both pseudo-label
training and a panoptic self-training strategy yields a novel approach that
accurately predicts panoptic segmentation of complex scenes without requiring
any human annotations. Our approach significantly improves panoptic quality,
e.g., surpassing the recent state of the art in unsupervised panoptic
segmentation on Cityscapes by 9.4% points in PQ.Summary
AI-Generated Summary