TUN3D: Hacia la comprensión de escenas del mundo real a partir de imágenes no posadas
TUN3D: Towards Real-World Scene Understanding from Unposed Images
September 23, 2025
Autores: Anton Konushin, Nikita Drozdov, Bulat Gabdullin, Alexey Zakharov, Anna Vorontsova, Danila Rukhovich, Maksim Kolodiazhnyi
cs.AI
Resumen
La estimación de la disposición espacial y la detección de objetos en 3D son dos tareas fundamentales en la comprensión de escenas interiores. Cuando se combinan, permiten la creación de una representación espacial compacta pero semánticamente rica de una escena. Los enfoques existentes suelen basarse en la entrada de nubes de puntos, lo que representa una limitación importante, ya que la mayoría de las cámaras de consumo carecen de sensores de profundidad y los datos exclusivamente visuales siguen siendo mucho más comunes. Abordamos este problema con TUN3D, el primer método que aborda conjuntamente la estimación de la disposición espacial y la detección de objetos en 3D en escaneos reales, utilizando imágenes multivista como entrada, y que no requiere poses de cámara con verdad de terreno ni supervisión de profundidad. Nuestro enfoque se basa en una arquitectura ligera de convolución dispersa y emplea dos cabezales dedicados: uno para la detección de objetos en 3D y otro para la estimación de la disposición espacial, aprovechando una representación paramétrica de paredes novedosa y efectiva. Experimentos exhaustivos muestran que TUN3D alcanza un rendimiento de vanguardia en tres desafiantes benchmarks de comprensión de escenas: (i) utilizando nubes de puntos con verdad de terreno, (ii) utilizando imágenes con poses conocidas, y (iii) utilizando imágenes sin poses conocidas. Mientras que su rendimiento es comparable al de métodos especializados en detección de objetos en 3D, TUN3D avanza significativamente en la estimación de la disposición espacial, estableciendo un nuevo referente en la comprensión holística de escenas interiores. El código está disponible en https://github.com/col14m/tun3d.
English
Layout estimation and 3D object detection are two fundamental tasks in indoor
scene understanding. When combined, they enable the creation of a compact yet
semantically rich spatial representation of a scene. Existing approaches
typically rely on point cloud input, which poses a major limitation since most
consumer cameras lack depth sensors and visual-only data remains far more
common. We address this issue with TUN3D, the first method that tackles joint
layout estimation and 3D object detection in real scans, given multi-view
images as input, and does not require ground-truth camera poses or depth
supervision. Our approach builds on a lightweight sparse-convolutional backbone
and employs two dedicated heads: one for 3D object detection and one for layout
estimation, leveraging a novel and effective parametric wall representation.
Extensive experiments show that TUN3D achieves state-of-the-art performance
across three challenging scene understanding benchmarks: (i) using ground-truth
point clouds, (ii) using posed images, and (iii) using unposed images. While
performing on par with specialized 3D object detection methods, TUN3D
significantly advances layout estimation, setting a new benchmark in holistic
indoor scene understanding. Code is available at
https://github.com/col14m/tun3d .