TUN3D: Rumo à Compreensão de Cenas do Mundo Real a partir de Imagens Não Posicionadas
TUN3D: Towards Real-World Scene Understanding from Unposed Images
September 23, 2025
Autores: Anton Konushin, Nikita Drozdov, Bulat Gabdullin, Alexey Zakharov, Anna Vorontsova, Danila Rukhovich, Maksim Kolodiazhnyi
cs.AI
Resumo
A estimativa de layout e a detecção de objetos 3D são duas tarefas fundamentais na compreensão de cenas internas. Quando combinadas, elas permitem a criação de uma representação espacial compacta, mas semanticamente rica de uma cena. As abordagens existentes geralmente dependem de entrada de nuvem de pontos, o que representa uma grande limitação, já que a maioria das câmeras de consumo não possui sensores de profundidade, e dados visuais continuam sendo muito mais comuns. Nós abordamos essa questão com o TUN3D, o primeiro método que lida com a estimativa de layout e a detecção de objetos 3D em varreduras reais, utilizando imagens multi-visão como entrada, e não requer poses de câmera de verdade ou supervisão de profundidade. Nossa abordagem é baseada em uma estrutura leve de convolução esparsa e emprega duas cabeças dedicadas: uma para detecção de objetos 3D e outra para estimativa de layout, aproveitando uma nova e eficiente representação paramétrica de paredes. Experimentos extensivos mostram que o TUN3D alcança desempenho de ponta em três benchmarks desafiadores de compreensão de cenas: (i) utilizando nuvens de pontos de verdade, (ii) utilizando imagens com poses, e (iii) utilizando imagens sem poses. Enquanto desempenha de forma equivalente a métodos especializados de detecção de objetos 3D, o TUN3D avança significativamente na estimativa de layout, estabelecendo um novo padrão na compreensão holística de cenas internas. O código está disponível em https://github.com/col14m/tun3d.
English
Layout estimation and 3D object detection are two fundamental tasks in indoor
scene understanding. When combined, they enable the creation of a compact yet
semantically rich spatial representation of a scene. Existing approaches
typically rely on point cloud input, which poses a major limitation since most
consumer cameras lack depth sensors and visual-only data remains far more
common. We address this issue with TUN3D, the first method that tackles joint
layout estimation and 3D object detection in real scans, given multi-view
images as input, and does not require ground-truth camera poses or depth
supervision. Our approach builds on a lightweight sparse-convolutional backbone
and employs two dedicated heads: one for 3D object detection and one for layout
estimation, leveraging a novel and effective parametric wall representation.
Extensive experiments show that TUN3D achieves state-of-the-art performance
across three challenging scene understanding benchmarks: (i) using ground-truth
point clouds, (ii) using posed images, and (iii) using unposed images. While
performing on par with specialized 3D object detection methods, TUN3D
significantly advances layout estimation, setting a new benchmark in holistic
indoor scene understanding. Code is available at
https://github.com/col14m/tun3d .