Feed-Forward SceneDINO pour l'achèvement sémantique de scènes non supervisé

Résumé

La complétion sémantique de scènes (SSC) vise à déduire à la fois la géométrie 3D et la sémantique d'une scène à partir d'images uniques. Contrairement aux travaux précédents sur la SSC qui reposent fortement sur des annotations au sol coûteuses, nous abordons la SSC dans un cadre non supervisé. Notre nouvelle méthode, SceneDINO, adapte des techniques issues de l'apprentissage auto-supervisé de représentations et de la compréhension non supervisée de scènes 2D à la SSC. Notre entraînement utilise exclusivement l'auto-supervision par cohérence multi-vues, sans aucune forme de vérité terrain sémantique ou géométrique. Étant donné une seule image d'entrée, SceneDINO infère la géométrie 3D et des caractéristiques DINO 3D expressives de manière directe. Grâce à une nouvelle approche de distillation de caractéristiques 3D, nous obtenons une sémantique 3D non supervisée. Dans la compréhension non supervisée de scènes en 3D et en 2D, SceneDINO atteint une précision de segmentation de pointe. Une sonde linéaire appliquée à nos caractéristiques 3D correspond à la précision de segmentation d'une approche supervisée actuelle de la SSC. De plus, nous démontrons la généralisation de domaine et la cohérence multi-vues de SceneDINO, posant ainsi les premières bases d'une compréhension solide des scènes 3D à partir d'une seule image.

English

Semantic scene completion (SSC) aims to infer both the 3D geometry and semantics of a scene from single images. In contrast to prior work on SSC that heavily relies on expensive ground-truth annotations, we approach SSC in an unsupervised setting. Our novel method, SceneDINO, adapts techniques from self-supervised representation learning and 2D unsupervised scene understanding to SSC. Our training exclusively utilizes multi-view consistency self-supervision without any form of semantic or geometric ground truth. Given a single input image, SceneDINO infers the 3D geometry and expressive 3D DINO features in a feed-forward manner. Through a novel 3D feature distillation approach, we obtain unsupervised 3D semantics. In both 3D and 2D unsupervised scene understanding, SceneDINO reaches state-of-the-art segmentation accuracy. Linear probing our 3D features matches the segmentation accuracy of a current supervised SSC approach. Additionally, we showcase the domain generalization and multi-view consistency of SceneDINO, taking the first steps towards a strong foundation for single image 3D scene understanding.