Feed-Forward SceneDINO für unüberwachte semantische Szenenvervollständigung
Feed-Forward SceneDINO for Unsupervised Semantic Scene Completion
July 8, 2025
papers.authors: Aleksandar Jevtić, Christoph Reich, Felix Wimbauer, Oliver Hahn, Christian Rupprecht, Stefan Roth, Daniel Cremers
cs.AI
papers.abstract
Semantische Szenenergänzung (SSC) zielt darauf ab, sowohl die 3D-Geometrie als auch die Semantik einer Szene aus einzelnen Bildern abzuleiten. Im Gegensatz zu früheren Arbeiten zur SSC, die stark auf teure Ground-Truth-Annotationen angewiesen sind, nähern wir uns der SSC in einem unüberwachten Setting. Unsere neue Methode, SceneDINO, adaptiert Techniken aus dem selbstüberwachten Repräsentationslernen und dem 2D-unüberwachten Szenenverständnis für die SSC. Unser Training nutzt ausschließlich Multi-View-Konsistenz-Selbstüberwachung ohne jegliche Form von semantischem oder geometrischem Ground Truth. Bei einem einzelnen Eingabebild leitet SceneDINO die 3D-Geometrie und expressive 3D-DINO-Features in einem Feed-Forward-Verfahren ab. Durch einen neuartigen Ansatz zur 3D-Feature-Destillation erhalten wir unüberwachte 3D-Semantik. Sowohl im 3D- als auch im 2D-unüberwachten Szenenverständnis erreicht SceneDINO state-of-the-art Segmentierungsgenauigkeit. Lineares Probing unserer 3D-Features erreicht die Segmentierungsgenauigkeit eines aktuellen überwachten SSC-Ansatzes. Zusätzlich demonstrieren wir die Domänengeneralisierung und Multi-View-Konsistenz von SceneDINO und machen damit die ersten Schritte hin zu einer soliden Grundlage für das 3D-Szenenverständnis aus einzelnen Bildern.
English
Semantic scene completion (SSC) aims to infer both the 3D geometry and
semantics of a scene from single images. In contrast to prior work on SSC that
heavily relies on expensive ground-truth annotations, we approach SSC in an
unsupervised setting. Our novel method, SceneDINO, adapts techniques from
self-supervised representation learning and 2D unsupervised scene understanding
to SSC. Our training exclusively utilizes multi-view consistency
self-supervision without any form of semantic or geometric ground truth. Given
a single input image, SceneDINO infers the 3D geometry and expressive 3D DINO
features in a feed-forward manner. Through a novel 3D feature distillation
approach, we obtain unsupervised 3D semantics. In both 3D and 2D unsupervised
scene understanding, SceneDINO reaches state-of-the-art segmentation accuracy.
Linear probing our 3D features matches the segmentation accuracy of a current
supervised SSC approach. Additionally, we showcase the domain generalization
and multi-view consistency of SceneDINO, taking the first steps towards a
strong foundation for single image 3D scene understanding.