Feed-Forward SceneDINO per il Completamento Semantico di Scene non Supervisionato
Feed-Forward SceneDINO for Unsupervised Semantic Scene Completion
July 8, 2025
Autori: Aleksandar Jevtić, Christoph Reich, Felix Wimbauer, Oliver Hahn, Christian Rupprecht, Stefan Roth, Daniel Cremers
cs.AI
Abstract
Il completamento semantico della scena (SSC) mira a dedurre sia la geometria 3D che la semantica di una scena a partire da singole immagini. A differenza dei lavori precedenti sull'SSC che si basano fortemente su costose annotazioni di verità di base, affrontiamo l'SSC in un contesto non supervisionato. Il nostro nuovo metodo, SceneDINO, adatta tecniche provenienti dall'apprendimento auto-supervisionato delle rappresentazioni e dalla comprensione non supervisionata delle scene 2D all'SSC. Il nostro addestramento utilizza esclusivamente l'auto-supervisione della coerenza multi-vista senza alcuna forma di verità di base semantica o geometrica. Data una singola immagine in ingresso, SceneDINO deduce la geometria 3D e le caratteristiche DINO 3D espressive in modo feed-forward. Attraverso un nuovo approccio di distillazione delle caratteristiche 3D, otteniamo una semantica 3D non supervisionata. Sia nella comprensione non supervisionata delle scene 3D che 2D, SceneDINO raggiunge un'accuratezza di segmentazione all'avanguardia. La sonda lineare sulle nostre caratteristiche 3D eguaglia l'accuratezza di segmentazione di un attuale approccio SSC supervisionato. Inoltre, dimostriamo la generalizzazione del dominio e la coerenza multi-vista di SceneDINO, compiendo i primi passi verso una solida base per la comprensione delle scene 3D da singole immagini.
English
Semantic scene completion (SSC) aims to infer both the 3D geometry and
semantics of a scene from single images. In contrast to prior work on SSC that
heavily relies on expensive ground-truth annotations, we approach SSC in an
unsupervised setting. Our novel method, SceneDINO, adapts techniques from
self-supervised representation learning and 2D unsupervised scene understanding
to SSC. Our training exclusively utilizes multi-view consistency
self-supervision without any form of semantic or geometric ground truth. Given
a single input image, SceneDINO infers the 3D geometry and expressive 3D DINO
features in a feed-forward manner. Through a novel 3D feature distillation
approach, we obtain unsupervised 3D semantics. In both 3D and 2D unsupervised
scene understanding, SceneDINO reaches state-of-the-art segmentation accuracy.
Linear probing our 3D features matches the segmentation accuracy of a current
supervised SSC approach. Additionally, we showcase the domain generalization
and multi-view consistency of SceneDINO, taking the first steps towards a
strong foundation for single image 3D scene understanding.