Segmentation Panoptique Non Supervisée Centrée sur la Scène
Scene-Centric Unsupervised Panoptic Segmentation
April 2, 2025
Auteurs: Oliver Hahn, Christoph Reich, Nikita Araslanov, Daniel Cremers, Christian Rupprecht, Stefan Roth
cs.AI
Résumé
La segmentation panoptique non supervisée vise à partitionner une image en régions sémantiquement significatives et en instances d'objets distinctes sans entraînement sur des données annotées manuellement. Contrairement aux travaux antérieurs sur la compréhension panoptique de scènes non supervisée, nous éliminons le besoin de données d'entraînement centrées sur les objets, permettant ainsi la compréhension non supervisée de scènes complexes. À cette fin, nous présentons la première méthode panoptique non supervisée qui s'entraîne directement sur des images centrées sur des scènes. En particulier, nous proposons une approche pour obtenir des pseudo-labels panoptiques haute résolution sur des données complexes centrées sur des scènes, en combinant des représentations visuelles, des informations de profondeur et des indices de mouvement. L'utilisation à la fois de l'entraînement sur pseudo-labels et d'une stratégie d'auto-entraînement panoptique donne naissance à une nouvelle approche qui prédit avec précision la segmentation panoptique de scènes complexes sans nécessiter aucune annotation humaine. Notre approche améliore significativement la qualité panoptique, surpassant par exemple l'état de l'art récent en segmentation panoptique non supervisée sur Cityscapes de 9,4 points de pourcentage en PQ.
English
Unsupervised panoptic segmentation aims to partition an image into
semantically meaningful regions and distinct object instances without training
on manually annotated data. In contrast to prior work on unsupervised panoptic
scene understanding, we eliminate the need for object-centric training data,
enabling the unsupervised understanding of complex scenes. To that end, we
present the first unsupervised panoptic method that directly trains on
scene-centric imagery. In particular, we propose an approach to obtain
high-resolution panoptic pseudo labels on complex scene-centric data, combining
visual representations, depth, and motion cues. Utilizing both pseudo-label
training and a panoptic self-training strategy yields a novel approach that
accurately predicts panoptic segmentation of complex scenes without requiring
any human annotations. Our approach significantly improves panoptic quality,
e.g., surpassing the recent state of the art in unsupervised panoptic
segmentation on Cityscapes by 9.4% points in PQ.Summary
AI-Generated Summary