TUN3D: Verso la comprensione di scene del mondo reale da immagini non posate
TUN3D: Towards Real-World Scene Understanding from Unposed Images
September 23, 2025
Autori: Anton Konushin, Nikita Drozdov, Bulat Gabdullin, Alexey Zakharov, Anna Vorontsova, Danila Rukhovich, Maksim Kolodiazhnyi
cs.AI
Abstract
La stima del layout e il rilevamento di oggetti 3D sono due compiti fondamentali nella comprensione delle scene indoor. Quando combinati, consentono la creazione di una rappresentazione spaziale compatta ma semanticamente ricca di una scena. Gli approcci esistenti si basano tipicamente su input di nuvole di punti, il che rappresenta una limitazione significativa poiché la maggior parte delle fotocamere consumer non dispone di sensori di profondità e i dati puramente visivi rimangono molto più comuni. Affrontiamo questo problema con TUN3D, il primo metodo che affronta congiuntamente la stima del layout e il rilevamento di oggetti 3D in scansioni reali, utilizzando immagini multi-vista come input, e non richiede pose della fotocamera di riferimento o supervisione sulla profondità. Il nostro approccio si basa su un'architettura leggera a convoluzione sparsa e impiega due testine dedicate: una per il rilevamento di oggetti 3D e una per la stima del layout, sfruttando una rappresentazione parametrica delle pareti innovativa ed efficace. Esperimenti estensivi dimostrano che TUN3D raggiunge prestazioni all'avanguardia su tre benchmark impegnativi per la comprensione delle scene: (i) utilizzando nuvole di punti di riferimento, (ii) utilizzando immagini con pose note, e (iii) utilizzando immagini senza pose note. Pur eguagliando le prestazioni dei metodi specializzati per il rilevamento di oggetti 3D, TUN3D avanza significativamente nella stima del layout, stabilendo un nuovo punto di riferimento nella comprensione olistica delle scene indoor. Il codice è disponibile all'indirizzo https://github.com/col14m/tun3d.
English
Layout estimation and 3D object detection are two fundamental tasks in indoor
scene understanding. When combined, they enable the creation of a compact yet
semantically rich spatial representation of a scene. Existing approaches
typically rely on point cloud input, which poses a major limitation since most
consumer cameras lack depth sensors and visual-only data remains far more
common. We address this issue with TUN3D, the first method that tackles joint
layout estimation and 3D object detection in real scans, given multi-view
images as input, and does not require ground-truth camera poses or depth
supervision. Our approach builds on a lightweight sparse-convolutional backbone
and employs two dedicated heads: one for 3D object detection and one for layout
estimation, leveraging a novel and effective parametric wall representation.
Extensive experiments show that TUN3D achieves state-of-the-art performance
across three challenging scene understanding benchmarks: (i) using ground-truth
point clouds, (ii) using posed images, and (iii) using unposed images. While
performing on par with specialized 3D object detection methods, TUN3D
significantly advances layout estimation, setting a new benchmark in holistic
indoor scene understanding. Code is available at
https://github.com/col14m/tun3d .