Feed-Forward SceneDINO для неконтролируемого семантического завершения сцен
Feed-Forward SceneDINO for Unsupervised Semantic Scene Completion
July 8, 2025
Авторы: Aleksandar Jevtić, Christoph Reich, Felix Wimbauer, Oliver Hahn, Christian Rupprecht, Stefan Roth, Daniel Cremers
cs.AI
Аннотация
Семантическое завершение сцены (SSC) направлено на восстановление как трехмерной геометрии, так и семантики сцены на основе одиночных изображений. В отличие от предыдущих работ по SSC, которые в значительной степени опираются на дорогостоящие аннотации с точными данными, мы рассматриваем SSC в условиях отсутствия обучения с учителем. Наш новый метод, SceneDINO, адаптирует подходы из самообучаемого представления и двумерного неконтролируемого понимания сцены для задачи SSC. Наше обучение исключительно использует самоконтроль на основе многовидовой согласованности без каких-либо семантических или геометрических точных данных. При наличии одного входного изображения SceneDINO восстанавливает трехмерную геометрию и выразительные трехмерные признаки DINO в прямом проходе. Благодаря новому подходу к дистилляции трехмерных признаков мы получаем неконтролируемую трехмерную семантику. В задачах как трехмерного, так и двумерного неконтролируемого понимания сцены SceneDINO достигает наивысшей точности сегментации. Линейное зондирование наших трехмерных признаков соответствует точности сегментации современных контролируемых подходов SSC. Кроме того, мы демонстрируем обобщение на различные домены и многовидовую согласованность SceneDINO, делая первые шаги к созданию надежной основы для понимания трехмерной сцены по одиночному изображению.
English
Semantic scene completion (SSC) aims to infer both the 3D geometry and
semantics of a scene from single images. In contrast to prior work on SSC that
heavily relies on expensive ground-truth annotations, we approach SSC in an
unsupervised setting. Our novel method, SceneDINO, adapts techniques from
self-supervised representation learning and 2D unsupervised scene understanding
to SSC. Our training exclusively utilizes multi-view consistency
self-supervision without any form of semantic or geometric ground truth. Given
a single input image, SceneDINO infers the 3D geometry and expressive 3D DINO
features in a feed-forward manner. Through a novel 3D feature distillation
approach, we obtain unsupervised 3D semantics. In both 3D and 2D unsupervised
scene understanding, SceneDINO reaches state-of-the-art segmentation accuracy.
Linear probing our 3D features matches the segmentation accuracy of a current
supervised SSC approach. Additionally, we showcase the domain generalization
and multi-view consistency of SceneDINO, taking the first steps towards a
strong foundation for single image 3D scene understanding.