ChatPaper.aiChatPaper

Feed-Forward SceneDINO voor Onbewaakte Semantische Scènevoltooiing

Feed-Forward SceneDINO for Unsupervised Semantic Scene Completion

July 8, 2025
Auteurs: Aleksandar Jevtić, Christoph Reich, Felix Wimbauer, Oliver Hahn, Christian Rupprecht, Stefan Roth, Daniel Cremers
cs.AI

Samenvatting

Semantische scènevoltooiing (SSC) heeft als doel zowel de 3D-geometrie als de semantiek van een scène af te leiden uit enkele afbeeldingen. In tegenstelling tot eerder werk over SSC dat sterk afhankelijk is van kostbare grondwaarheidannotaties, benaderen wij SSC in een onbewaakte setting. Onze nieuwe methode, SceneDINO, past technieken uit zelfbewaakte representatieleer en 2D onbewaakte scènebegrip toe op SSC. Onze training maakt uitsluitend gebruik van multi-view consistentie zelfbewaking zonder enige vorm van semantische of geometrische grondwaarheid. Gegeven een enkele invoerafbeelding, leidt SceneDINO de 3D-geometrie en expressieve 3D DINO-features op een feed-forward manier af. Door een nieuwe 3D-feature-distillatieaanpak verkrijgen we onbewaakte 3D-semantiek. In zowel 3D als 2D onbewaakt scènebegrip bereikt SceneDINO state-of-the-art segmentatienauwkeurigheid. Lineair testen van onze 3D-features komt overeen met de segmentatienauwkeurigheid van een huidige bewaakte SSC-aanpak. Daarnaast tonen we de domeingeneralizatie en multi-view consistentie van SceneDINO aan, waarmee we de eerste stappen zetten naar een sterke basis voor 3D-scènebegrip uit enkele afbeeldingen.
English
Semantic scene completion (SSC) aims to infer both the 3D geometry and semantics of a scene from single images. In contrast to prior work on SSC that heavily relies on expensive ground-truth annotations, we approach SSC in an unsupervised setting. Our novel method, SceneDINO, adapts techniques from self-supervised representation learning and 2D unsupervised scene understanding to SSC. Our training exclusively utilizes multi-view consistency self-supervision without any form of semantic or geometric ground truth. Given a single input image, SceneDINO infers the 3D geometry and expressive 3D DINO features in a feed-forward manner. Through a novel 3D feature distillation approach, we obtain unsupervised 3D semantics. In both 3D and 2D unsupervised scene understanding, SceneDINO reaches state-of-the-art segmentation accuracy. Linear probing our 3D features matches the segmentation accuracy of a current supervised SSC approach. Additionally, we showcase the domain generalization and multi-view consistency of SceneDINO, taking the first steps towards a strong foundation for single image 3D scene understanding.
PDF42July 9, 2025