Feed-Forward SceneDINO per il Completamento Semantico di Scene non Supervisionato

Abstract

Il completamento semantico della scena (SSC) mira a dedurre sia la geometria 3D che la semantica di una scena a partire da singole immagini. A differenza dei lavori precedenti sull'SSC che si basano fortemente su costose annotazioni di verità di base, affrontiamo l'SSC in un contesto non supervisionato. Il nostro nuovo metodo, SceneDINO, adatta tecniche provenienti dall'apprendimento auto-supervisionato delle rappresentazioni e dalla comprensione non supervisionata delle scene 2D all'SSC. Il nostro addestramento utilizza esclusivamente l'auto-supervisione della coerenza multi-vista senza alcuna forma di verità di base semantica o geometrica. Data una singola immagine in ingresso, SceneDINO deduce la geometria 3D e le caratteristiche DINO 3D espressive in modo feed-forward. Attraverso un nuovo approccio di distillazione delle caratteristiche 3D, otteniamo una semantica 3D non supervisionata. Sia nella comprensione non supervisionata delle scene 3D che 2D, SceneDINO raggiunge un'accuratezza di segmentazione all'avanguardia. La sonda lineare sulle nostre caratteristiche 3D eguaglia l'accuratezza di segmentazione di un attuale approccio SSC supervisionato. Inoltre, dimostriamo la generalizzazione del dominio e la coerenza multi-vista di SceneDINO, compiendo i primi passi verso una solida base per la comprensione delle scene 3D da singole immagini.

English

Semantic scene completion (SSC) aims to infer both the 3D geometry and semantics of a scene from single images. In contrast to prior work on SSC that heavily relies on expensive ground-truth annotations, we approach SSC in an unsupervised setting. Our novel method, SceneDINO, adapts techniques from self-supervised representation learning and 2D unsupervised scene understanding to SSC. Our training exclusively utilizes multi-view consistency self-supervision without any form of semantic or geometric ground truth. Given a single input image, SceneDINO infers the 3D geometry and expressive 3D DINO features in a feed-forward manner. Through a novel 3D feature distillation approach, we obtain unsupervised 3D semantics. In both 3D and 2D unsupervised scene understanding, SceneDINO reaches state-of-the-art segmentation accuracy. Linear probing our 3D features matches the segmentation accuracy of a current supervised SSC approach. Additionally, we showcase the domain generalization and multi-view consistency of SceneDINO, taking the first steps towards a strong foundation for single image 3D scene understanding.

Feed-Forward SceneDINO per il Completamento Semantico di Scene non Supervisionato

Feed-Forward SceneDINO for Unsupervised Semantic Scene Completion

Abstract

Support