Feed-Forward SceneDINO para Completado Semántico de Escenas No Supervisado
Feed-Forward SceneDINO for Unsupervised Semantic Scene Completion
July 8, 2025
Autores: Aleksandar Jevtić, Christoph Reich, Felix Wimbauer, Oliver Hahn, Christian Rupprecht, Stefan Roth, Daniel Cremers
cs.AI
Resumen
La completación semántica de escenas (SSC, por sus siglas en inglés) tiene como objetivo inferir tanto la geometría 3D como la semántica de una escena a partir de imágenes individuales. A diferencia de trabajos previos en SSC que dependen en gran medida de anotaciones de verdad de suelo costosas, abordamos SSC en un entorno no supervisado. Nuestro método novedoso, SceneDINO, adapta técnicas de aprendizaje de representación autosupervisado y comprensión de escenas 2D no supervisada a SSC. Nuestro entrenamiento utiliza exclusivamente la autosupervisión de consistencia multivista sin ninguna forma de verdad de suelo semántica o geométrica. Dada una única imagen de entrada, SceneDINO infiere la geometría 3D y las características expresivas 3D de DINO de manera directa. A través de un novedoso enfoque de destilación de características 3D, obtenemos semántica 3D no supervisada. Tanto en la comprensión de escenas 3D como 2D no supervisada, SceneDINO alcanza una precisión de segmentación de vanguardia. La sonda lineal de nuestras características 3D iguala la precisión de segmentación de un enfoque supervisado actual de SSC. Además, demostramos la generalización de dominio y la consistencia multivista de SceneDINO, dando los primeros pasos hacia una base sólida para la comprensión de escenas 3D a partir de una sola imagen.
English
Semantic scene completion (SSC) aims to infer both the 3D geometry and
semantics of a scene from single images. In contrast to prior work on SSC that
heavily relies on expensive ground-truth annotations, we approach SSC in an
unsupervised setting. Our novel method, SceneDINO, adapts techniques from
self-supervised representation learning and 2D unsupervised scene understanding
to SSC. Our training exclusively utilizes multi-view consistency
self-supervision without any form of semantic or geometric ground truth. Given
a single input image, SceneDINO infers the 3D geometry and expressive 3D DINO
features in a feed-forward manner. Through a novel 3D feature distillation
approach, we obtain unsupervised 3D semantics. In both 3D and 2D unsupervised
scene understanding, SceneDINO reaches state-of-the-art segmentation accuracy.
Linear probing our 3D features matches the segmentation accuracy of a current
supervised SSC approach. Additionally, we showcase the domain generalization
and multi-view consistency of SceneDINO, taking the first steps towards a
strong foundation for single image 3D scene understanding.