Feed-Forward SceneDINO para Conclusão Semântica de Cenas Não Supervisionada

Resumo

A conclusão semântica de cenas (SSC, do inglês Semantic Scene Completion) visa inferir tanto a geometria 3D quanto a semântica de uma cena a partir de imagens únicas. Em contraste com trabalhos anteriores sobre SSC que dependem fortemente de anotações de verdade fundamental (ground truth) caras, abordamos o SSC em um cenário não supervisionado. Nosso novo método, SceneDINO, adapta técnicas de aprendizado de representação auto-supervisionado e compreensão de cenas 2D não supervisionada para o SSC. Nosso treinamento utiliza exclusivamente auto-supervisão de consistência multi-visual sem qualquer forma de verdade fundamental semântica ou geométrica. Dada uma única imagem de entrada, o SceneDINO infere a geometria 3D e características 3D expressivas de DINO de maneira direta (feed-forward). Por meio de uma nova abordagem de destilação de características 3D, obtemos semântica 3D não supervisionada. Tanto na compreensão de cenas 3D quanto 2D não supervisionadas, o SceneDINO alcança precisão de segmentação de última geração. A sondagem linear de nossas características 3D corresponde à precisão de segmentação de uma abordagem atual de SSC supervisionada. Além disso, demonstramos a generalização de domínio e a consistência multi-visual do SceneDINO, dando os primeiros passos em direção a uma base sólida para a compreensão de cenas 3D a partir de uma única imagem.

English

Semantic scene completion (SSC) aims to infer both the 3D geometry and semantics of a scene from single images. In contrast to prior work on SSC that heavily relies on expensive ground-truth annotations, we approach SSC in an unsupervised setting. Our novel method, SceneDINO, adapts techniques from self-supervised representation learning and 2D unsupervised scene understanding to SSC. Our training exclusively utilizes multi-view consistency self-supervision without any form of semantic or geometric ground truth. Given a single input image, SceneDINO infers the 3D geometry and expressive 3D DINO features in a feed-forward manner. Through a novel 3D feature distillation approach, we obtain unsupervised 3D semantics. In both 3D and 2D unsupervised scene understanding, SceneDINO reaches state-of-the-art segmentation accuracy. Linear probing our 3D features matches the segmentation accuracy of a current supervised SSC approach. Additionally, we showcase the domain generalization and multi-view consistency of SceneDINO, taking the first steps towards a strong foundation for single image 3D scene understanding.

Feed-Forward SceneDINO para Conclusão Semântica de Cenas Não Supervisionada

Feed-Forward SceneDINO for Unsupervised Semantic Scene Completion

Resumo

Support