TUN3D: Op Weg naar Begrip van Real-World Scènes uit Ongeposeerde Afbeeldingen
TUN3D: Towards Real-World Scene Understanding from Unposed Images
September 23, 2025
Auteurs: Anton Konushin, Nikita Drozdov, Bulat Gabdullin, Alexey Zakharov, Anna Vorontsova, Danila Rukhovich, Maksim Kolodiazhnyi
cs.AI
Samenvatting
Lay-outschatting en 3D-objectdetectie zijn twee fundamentele taken in het begrijpen van binnenruimtes. Wanneer ze worden gecombineerd, maken ze het mogelijk om een compacte maar semantisch rijke ruimtelijke representatie van een scène te creëren. Bestaande benaderingen zijn doorgaans afhankelijk van pointcloud-invoer, wat een belangrijke beperking vormt omdat de meeste consumentencamera's geen dieptesensoren hebben en visuele data nog steeds veel gebruikelijker is. Wij pakken dit probleem aan met TUN3D, de eerste methode die gezamenlijke lay-outschatting en 3D-objectdetectie in realistische scans aanpakt, waarbij multi-view afbeeldingen als invoer worden gebruikt, en die geen grondwaarheid voor cameraposities of dieptesupervisie vereist. Onze aanpak bouwt voort op een lichtgewicht sparse-convolutional backbone en maakt gebruik van twee specifieke heads: één voor 3D-objectdetectie en één voor lay-outschatting, waarbij een nieuwe en effectieve parametrische wandrepresentatie wordt benut. Uitgebreide experimenten tonen aan dat TUN3D state-of-the-art prestaties behaalt op drie uitdagende benchmarks voor scènebegrip: (i) met behulp van grondwaarheid pointclouds, (ii) met behulp van gepositioneerde afbeeldingen, en (iii) met behulp van niet-gepositioneerde afbeeldingen. Terwijl TUN3D vergelijkbaar presteert met gespecialiseerde 3D-objectdetectiemethoden, zet het significante stappen vooruit in lay-outschatting, waardoor een nieuwe benchmark wordt gezet in holistisch binnenruimtebegrip. De code is beschikbaar op https://github.com/col14m/tun3d.
English
Layout estimation and 3D object detection are two fundamental tasks in indoor
scene understanding. When combined, they enable the creation of a compact yet
semantically rich spatial representation of a scene. Existing approaches
typically rely on point cloud input, which poses a major limitation since most
consumer cameras lack depth sensors and visual-only data remains far more
common. We address this issue with TUN3D, the first method that tackles joint
layout estimation and 3D object detection in real scans, given multi-view
images as input, and does not require ground-truth camera poses or depth
supervision. Our approach builds on a lightweight sparse-convolutional backbone
and employs two dedicated heads: one for 3D object detection and one for layout
estimation, leveraging a novel and effective parametric wall representation.
Extensive experiments show that TUN3D achieves state-of-the-art performance
across three challenging scene understanding benchmarks: (i) using ground-truth
point clouds, (ii) using posed images, and (iii) using unposed images. While
performing on par with specialized 3D object detection methods, TUN3D
significantly advances layout estimation, setting a new benchmark in holistic
indoor scene understanding. Code is available at
https://github.com/col14m/tun3d .