Feed-Forward SceneDINO para Conclusão Semântica de Cenas Não Supervisionada
Feed-Forward SceneDINO for Unsupervised Semantic Scene Completion
July 8, 2025
Autores: Aleksandar Jevtić, Christoph Reich, Felix Wimbauer, Oliver Hahn, Christian Rupprecht, Stefan Roth, Daniel Cremers
cs.AI
Resumo
A conclusão semântica de cenas (SSC, do inglês Semantic Scene Completion) visa inferir tanto a geometria 3D quanto a semântica de uma cena a partir de imagens únicas. Em contraste com trabalhos anteriores sobre SSC que dependem fortemente de anotações de verdade fundamental (ground truth) caras, abordamos o SSC em um cenário não supervisionado. Nosso novo método, SceneDINO, adapta técnicas de aprendizado de representação auto-supervisionado e compreensão de cenas 2D não supervisionada para o SSC. Nosso treinamento utiliza exclusivamente auto-supervisão de consistência multi-visual sem qualquer forma de verdade fundamental semântica ou geométrica. Dada uma única imagem de entrada, o SceneDINO infere a geometria 3D e características 3D expressivas de DINO de maneira direta (feed-forward). Por meio de uma nova abordagem de destilação de características 3D, obtemos semântica 3D não supervisionada. Tanto na compreensão de cenas 3D quanto 2D não supervisionadas, o SceneDINO alcança precisão de segmentação de última geração. A sondagem linear de nossas características 3D corresponde à precisão de segmentação de uma abordagem atual de SSC supervisionada. Além disso, demonstramos a generalização de domínio e a consistência multi-visual do SceneDINO, dando os primeiros passos em direção a uma base sólida para a compreensão de cenas 3D a partir de uma única imagem.
English
Semantic scene completion (SSC) aims to infer both the 3D geometry and
semantics of a scene from single images. In contrast to prior work on SSC that
heavily relies on expensive ground-truth annotations, we approach SSC in an
unsupervised setting. Our novel method, SceneDINO, adapts techniques from
self-supervised representation learning and 2D unsupervised scene understanding
to SSC. Our training exclusively utilizes multi-view consistency
self-supervision without any form of semantic or geometric ground truth. Given
a single input image, SceneDINO infers the 3D geometry and expressive 3D DINO
features in a feed-forward manner. Through a novel 3D feature distillation
approach, we obtain unsupervised 3D semantics. In both 3D and 2D unsupervised
scene understanding, SceneDINO reaches state-of-the-art segmentation accuracy.
Linear probing our 3D features matches the segmentation accuracy of a current
supervised SSC approach. Additionally, we showcase the domain generalization
and multi-view consistency of SceneDINO, taking the first steps towards a
strong foundation for single image 3D scene understanding.