TUN3D: Auf dem Weg zum Verständnis realer Szenen aus ungeordneten Bildern
TUN3D: Towards Real-World Scene Understanding from Unposed Images
September 23, 2025
papers.authors: Anton Konushin, Nikita Drozdov, Bulat Gabdullin, Alexey Zakharov, Anna Vorontsova, Danila Rukhovich, Maksim Kolodiazhnyi
cs.AI
papers.abstract
Layout-Schätzung und 3D-Objekterkennung sind zwei grundlegende Aufgaben im Bereich des Verständnisses von Innenraumszenen. In Kombination ermöglichen sie die Erstellung einer kompakten, aber semantisch reichhaltigen räumlichen Darstellung einer Szene. Bisherige Ansätze stützen sich typischerweise auf Punktwolken als Eingabe, was eine erhebliche Einschränkung darstellt, da die meisten Verbraucherkameras keine Tiefensensoren besitzen und rein visuelle Daten weitaus häufiger vorkommen. Wir adressieren dieses Problem mit TUN3D, der ersten Methode, die die gemeinsame Layout-Schätzung und 3D-Objekterkennung in realen Scans mit Multi-View-Bildern als Eingabe bewältigt und dabei weder Ground-Truth-Kameraposen noch Tiefeninformationen benötigt. Unser Ansatz basiert auf einem leichtgewichtigen, sparsen konvolutionalen Backbone und verwendet zwei spezialisierte Köpfe: einen für die 3D-Objekterkennung und einen für die Layout-Schätzung, wobei eine neuartige und effektive parametrische Wandrepräsentation genutzt wird. Umfangreiche Experimente zeigen, dass TUN3D state-of-the-art Leistungen in drei anspruchsvollen Benchmarks für das Szenenverständnis erzielt: (i) unter Verwendung von Ground-Truth-Punktwolken, (ii) unter Verwendung von positionierten Bildern und (iii) unter Verwendung von nicht positionierten Bildern. Während TUN3D mit spezialisierten Methoden zur 3D-Objekterkennung gleichzieht, verbessert es die Layout-Schätzung erheblich und setzt damit einen neuen Maßstab für das ganzheitliche Verständnis von Innenraumszenen. Der Code ist verfügbar unter https://github.com/col14m/tun3d.
English
Layout estimation and 3D object detection are two fundamental tasks in indoor
scene understanding. When combined, they enable the creation of a compact yet
semantically rich spatial representation of a scene. Existing approaches
typically rely on point cloud input, which poses a major limitation since most
consumer cameras lack depth sensors and visual-only data remains far more
common. We address this issue with TUN3D, the first method that tackles joint
layout estimation and 3D object detection in real scans, given multi-view
images as input, and does not require ground-truth camera poses or depth
supervision. Our approach builds on a lightweight sparse-convolutional backbone
and employs two dedicated heads: one for 3D object detection and one for layout
estimation, leveraging a novel and effective parametric wall representation.
Extensive experiments show that TUN3D achieves state-of-the-art performance
across three challenging scene understanding benchmarks: (i) using ground-truth
point clouds, (ii) using posed images, and (iii) using unposed images. While
performing on par with specialized 3D object detection methods, TUN3D
significantly advances layout estimation, setting a new benchmark in holistic
indoor scene understanding. Code is available at
https://github.com/col14m/tun3d .