TUN3D: К пониманию реальных сцен на основе непоставленных изображений
TUN3D: Towards Real-World Scene Understanding from Unposed Images
September 23, 2025
Авторы: Anton Konushin, Nikita Drozdov, Bulat Gabdullin, Alexey Zakharov, Anna Vorontsova, Danila Rukhovich, Maksim Kolodiazhnyi
cs.AI
Аннотация
Оценка планировки и трехмерное обнаружение объектов являются двумя фундаментальными задачами в понимании внутренних сцен. В сочетании они позволяют создавать компактное, но семантически насыщенное пространственное представление сцены. Существующие подходы обычно полагаются на входные данные в виде облака точек, что представляет собой серьезное ограничение, поскольку большинство потребительских камер не оснащены датчиками глубины, а визуальные данные остаются гораздо более распространенными. Мы решаем эту проблему с помощью TUN3D — первого метода, который решает задачи совместной оценки планировки и трехмерного обнаружения объектов в реальных сканах, используя в качестве входных данных изображения с нескольких ракурсов, и не требует истинных поз камер или данных о глубине. Наш подход основан на легковесной разреженной сверточной архитектуре и использует два специализированных модуля: один для трехмерного обнаружения объектов и один для оценки планировки, применяя новую и эффективную параметрическую модель представления стен. Многочисленные эксперименты показывают, что TUN3D достигает наилучших результатов на трех сложных тестах для понимания сцен: (i) с использованием истинных облаков точек, (ii) с использованием изображений с известными позами и (iii) с использованием изображений без известных поз. Хотя TUN3D демонстрирует результаты, сопоставимые с методами специализированного трехмерного обнаружения объектов, он значительно продвигает оценку планировки, устанавливая новый стандарт в целостном понимании внутренних сцен. Код доступен по адресу https://github.com/col14m/tun3d.
English
Layout estimation and 3D object detection are two fundamental tasks in indoor
scene understanding. When combined, they enable the creation of a compact yet
semantically rich spatial representation of a scene. Existing approaches
typically rely on point cloud input, which poses a major limitation since most
consumer cameras lack depth sensors and visual-only data remains far more
common. We address this issue with TUN3D, the first method that tackles joint
layout estimation and 3D object detection in real scans, given multi-view
images as input, and does not require ground-truth camera poses or depth
supervision. Our approach builds on a lightweight sparse-convolutional backbone
and employs two dedicated heads: one for 3D object detection and one for layout
estimation, leveraging a novel and effective parametric wall representation.
Extensive experiments show that TUN3D achieves state-of-the-art performance
across three challenging scene understanding benchmarks: (i) using ground-truth
point clouds, (ii) using posed images, and (iii) using unposed images. While
performing on par with specialized 3D object detection methods, TUN3D
significantly advances layout estimation, setting a new benchmark in holistic
indoor scene understanding. Code is available at
https://github.com/col14m/tun3d .