Feed-Forward SceneDINO для неконтролируемого семантического завершения сцен

Аннотация

Семантическое завершение сцены (SSC) направлено на восстановление как трехмерной геометрии, так и семантики сцены на основе одиночных изображений. В отличие от предыдущих работ по SSC, которые в значительной степени опираются на дорогостоящие аннотации с точными данными, мы рассматриваем SSC в условиях отсутствия обучения с учителем. Наш новый метод, SceneDINO, адаптирует подходы из самообучаемого представления и двумерного неконтролируемого понимания сцены для задачи SSC. Наше обучение исключительно использует самоконтроль на основе многовидовой согласованности без каких-либо семантических или геометрических точных данных. При наличии одного входного изображения SceneDINO восстанавливает трехмерную геометрию и выразительные трехмерные признаки DINO в прямом проходе. Благодаря новому подходу к дистилляции трехмерных признаков мы получаем неконтролируемую трехмерную семантику. В задачах как трехмерного, так и двумерного неконтролируемого понимания сцены SceneDINO достигает наивысшей точности сегментации. Линейное зондирование наших трехмерных признаков соответствует точности сегментации современных контролируемых подходов SSC. Кроме того, мы демонстрируем обобщение на различные домены и многовидовую согласованность SceneDINO, делая первые шаги к созданию надежной основы для понимания трехмерной сцены по одиночному изображению.

English

Semantic scene completion (SSC) aims to infer both the 3D geometry and semantics of a scene from single images. In contrast to prior work on SSC that heavily relies on expensive ground-truth annotations, we approach SSC in an unsupervised setting. Our novel method, SceneDINO, adapts techniques from self-supervised representation learning and 2D unsupervised scene understanding to SSC. Our training exclusively utilizes multi-view consistency self-supervision without any form of semantic or geometric ground truth. Given a single input image, SceneDINO infers the 3D geometry and expressive 3D DINO features in a feed-forward manner. Through a novel 3D feature distillation approach, we obtain unsupervised 3D semantics. In both 3D and 2D unsupervised scene understanding, SceneDINO reaches state-of-the-art segmentation accuracy. Linear probing our 3D features matches the segmentation accuracy of a current supervised SSC approach. Additionally, we showcase the domain generalization and multi-view consistency of SceneDINO, taking the first steps towards a strong foundation for single image 3D scene understanding.