Feed-Forward SceneDINO pour l'achèvement sémantique de scènes non supervisé
Feed-Forward SceneDINO for Unsupervised Semantic Scene Completion
July 8, 2025
papers.authors: Aleksandar Jevtić, Christoph Reich, Felix Wimbauer, Oliver Hahn, Christian Rupprecht, Stefan Roth, Daniel Cremers
cs.AI
papers.abstract
La complétion sémantique de scènes (SSC) vise à déduire à la fois la géométrie 3D et la sémantique d'une scène à partir d'images uniques. Contrairement aux travaux précédents sur la SSC qui reposent fortement sur des annotations au sol coûteuses, nous abordons la SSC dans un cadre non supervisé. Notre nouvelle méthode, SceneDINO, adapte des techniques issues de l'apprentissage auto-supervisé de représentations et de la compréhension non supervisée de scènes 2D à la SSC. Notre entraînement utilise exclusivement l'auto-supervision par cohérence multi-vues, sans aucune forme de vérité terrain sémantique ou géométrique. Étant donné une seule image d'entrée, SceneDINO infère la géométrie 3D et des caractéristiques DINO 3D expressives de manière directe. Grâce à une nouvelle approche de distillation de caractéristiques 3D, nous obtenons une sémantique 3D non supervisée. Dans la compréhension non supervisée de scènes en 3D et en 2D, SceneDINO atteint une précision de segmentation de pointe. Une sonde linéaire appliquée à nos caractéristiques 3D correspond à la précision de segmentation d'une approche supervisée actuelle de la SSC. De plus, nous démontrons la généralisation de domaine et la cohérence multi-vues de SceneDINO, posant ainsi les premières bases d'une compréhension solide des scènes 3D à partir d'une seule image.
English
Semantic scene completion (SSC) aims to infer both the 3D geometry and
semantics of a scene from single images. In contrast to prior work on SSC that
heavily relies on expensive ground-truth annotations, we approach SSC in an
unsupervised setting. Our novel method, SceneDINO, adapts techniques from
self-supervised representation learning and 2D unsupervised scene understanding
to SSC. Our training exclusively utilizes multi-view consistency
self-supervision without any form of semantic or geometric ground truth. Given
a single input image, SceneDINO infers the 3D geometry and expressive 3D DINO
features in a feed-forward manner. Through a novel 3D feature distillation
approach, we obtain unsupervised 3D semantics. In both 3D and 2D unsupervised
scene understanding, SceneDINO reaches state-of-the-art segmentation accuracy.
Linear probing our 3D features matches the segmentation accuracy of a current
supervised SSC approach. Additionally, we showcase the domain generalization
and multi-view consistency of SceneDINO, taking the first steps towards a
strong foundation for single image 3D scene understanding.