Feed-Forward SceneDINO voor Onbewaakte Semantische Scènevoltooiing
Feed-Forward SceneDINO for Unsupervised Semantic Scene Completion
July 8, 2025
Auteurs: Aleksandar Jevtić, Christoph Reich, Felix Wimbauer, Oliver Hahn, Christian Rupprecht, Stefan Roth, Daniel Cremers
cs.AI
Samenvatting
Semantische scènevoltooiing (SSC) heeft als doel zowel de 3D-geometrie als de semantiek van een scène af te leiden uit enkele afbeeldingen. In tegenstelling tot eerder werk over SSC dat sterk afhankelijk is van kostbare grondwaarheidannotaties, benaderen wij SSC in een onbewaakte setting. Onze nieuwe methode, SceneDINO, past technieken uit zelfbewaakte representatieleer en 2D onbewaakte scènebegrip toe op SSC. Onze training maakt uitsluitend gebruik van multi-view consistentie zelfbewaking zonder enige vorm van semantische of geometrische grondwaarheid. Gegeven een enkele invoerafbeelding, leidt SceneDINO de 3D-geometrie en expressieve 3D DINO-features op een feed-forward manier af. Door een nieuwe 3D-feature-distillatieaanpak verkrijgen we onbewaakte 3D-semantiek. In zowel 3D als 2D onbewaakt scènebegrip bereikt SceneDINO state-of-the-art segmentatienauwkeurigheid. Lineair testen van onze 3D-features komt overeen met de segmentatienauwkeurigheid van een huidige bewaakte SSC-aanpak. Daarnaast tonen we de domeingeneralizatie en multi-view consistentie van SceneDINO aan, waarmee we de eerste stappen zetten naar een sterke basis voor 3D-scènebegrip uit enkele afbeeldingen.
English
Semantic scene completion (SSC) aims to infer both the 3D geometry and
semantics of a scene from single images. In contrast to prior work on SSC that
heavily relies on expensive ground-truth annotations, we approach SSC in an
unsupervised setting. Our novel method, SceneDINO, adapts techniques from
self-supervised representation learning and 2D unsupervised scene understanding
to SSC. Our training exclusively utilizes multi-view consistency
self-supervision without any form of semantic or geometric ground truth. Given
a single input image, SceneDINO infers the 3D geometry and expressive 3D DINO
features in a feed-forward manner. Through a novel 3D feature distillation
approach, we obtain unsupervised 3D semantics. In both 3D and 2D unsupervised
scene understanding, SceneDINO reaches state-of-the-art segmentation accuracy.
Linear probing our 3D features matches the segmentation accuracy of a current
supervised SSC approach. Additionally, we showcase the domain generalization
and multi-view consistency of SceneDINO, taking the first steps towards a
strong foundation for single image 3D scene understanding.