TUN3D : Vers la compréhension de scènes du monde réel à partir d'images non posées
TUN3D: Towards Real-World Scene Understanding from Unposed Images
September 23, 2025
papers.authors: Anton Konushin, Nikita Drozdov, Bulat Gabdullin, Alexey Zakharov, Anna Vorontsova, Danila Rukhovich, Maksim Kolodiazhnyi
cs.AI
papers.abstract
L'estimation de la disposition et la détection d'objets 3D sont deux tâches fondamentales dans la compréhension des scènes intérieures. Lorsqu'elles sont combinées, elles permettent la création d'une représentation spatiale compacte mais sémantiquement riche d'une scène. Les approches existantes reposent généralement sur des nuages de points en entrée, ce qui pose une limitation majeure puisque la plupart des caméras grand public ne disposent pas de capteurs de profondeur, et les données visuelles seules restent bien plus courantes. Nous abordons ce problème avec TUN3D, la première méthode qui traite conjointement l'estimation de la disposition et la détection d'objets 3D dans des scans réels, en prenant des images multi-vues comme entrée, et sans nécessiter de poses de caméra annotées ou de supervision de profondeur. Notre approche s'appuie sur un réseau léger à convolution sparse et utilise deux têtes dédiées : une pour la détection d'objets 3D et une pour l'estimation de la disposition, en exploitant une nouvelle représentation paramétrique efficace des murs. Des expériences approfondies montrent que TUN3D atteint des performances de pointe sur trois benchmarks exigeants en compréhension de scènes : (i) en utilisant des nuages de points annotés, (ii) en utilisant des images avec poses, et (iii) en utilisant des images sans poses. Tout en rivalisant avec les méthodes spécialisées en détection d'objets 3D, TUN3D fait progresser significativement l'estimation de la disposition, établissant un nouveau standard dans la compréhension holistique des scènes intérieures. Le code est disponible à l'adresse https://github.com/col14m/tun3d.
English
Layout estimation and 3D object detection are two fundamental tasks in indoor
scene understanding. When combined, they enable the creation of a compact yet
semantically rich spatial representation of a scene. Existing approaches
typically rely on point cloud input, which poses a major limitation since most
consumer cameras lack depth sensors and visual-only data remains far more
common. We address this issue with TUN3D, the first method that tackles joint
layout estimation and 3D object detection in real scans, given multi-view
images as input, and does not require ground-truth camera poses or depth
supervision. Our approach builds on a lightweight sparse-convolutional backbone
and employs two dedicated heads: one for 3D object detection and one for layout
estimation, leveraging a novel and effective parametric wall representation.
Extensive experiments show that TUN3D achieves state-of-the-art performance
across three challenging scene understanding benchmarks: (i) using ground-truth
point clouds, (ii) using posed images, and (iii) using unposed images. While
performing on par with specialized 3D object detection methods, TUN3D
significantly advances layout estimation, setting a new benchmark in holistic
indoor scene understanding. Code is available at
https://github.com/col14m/tun3d .