Segmentação Panóptica Não Supervisionada Centrada em Cenas

Resumo

A segmentação panóptica não supervisionada tem como objetivo dividir uma imagem em regiões semanticamente significativas e instâncias de objetos distintas sem treinamento em dados anotados manualmente. Em contraste com trabalhos anteriores sobre compreensão de cenas panópticas não supervisionadas, eliminamos a necessidade de dados de treinamento centrados em objetos, permitindo a compreensão não supervisionada de cenas complexas. Para isso, apresentamos o primeiro método panóptico não supervisionado que treina diretamente em imagens centradas em cenas. Em particular, propomos uma abordagem para obter rótulos pseudo panópticos de alta resolução em dados complexos centrados em cenas, combinando representações visuais, profundidade e pistas de movimento. A utilização tanto do treinamento com rótulos pseudo quanto de uma estratégia de auto-treinamento panóptico resulta em uma abordagem inovadora que prevê com precisão a segmentação panóptica de cenas complexas sem exigir nenhuma anotação humana. Nossa abordagem melhora significativamente a qualidade panóptica, superando, por exemplo, o estado da arte recente em segmentação panóptica não supervisionada no Cityscapes em 9,4 pontos percentuais em PQ.

English

Unsupervised panoptic segmentation aims to partition an image into semantically meaningful regions and distinct object instances without training on manually annotated data. In contrast to prior work on unsupervised panoptic scene understanding, we eliminate the need for object-centric training data, enabling the unsupervised understanding of complex scenes. To that end, we present the first unsupervised panoptic method that directly trains on scene-centric imagery. In particular, we propose an approach to obtain high-resolution panoptic pseudo labels on complex scene-centric data, combining visual representations, depth, and motion cues. Utilizing both pseudo-label training and a panoptic self-training strategy yields a novel approach that accurately predicts panoptic segmentation of complex scenes without requiring any human annotations. Our approach significantly improves panoptic quality, e.g., surpassing the recent state of the art in unsupervised panoptic segmentation on Cityscapes by 9.4% points in PQ.

Segmentação Panóptica Não Supervisionada Centrada em Cenas

Scene-Centric Unsupervised Panoptic Segmentation

Resumo

Summary

Support

Support