TUN3D: Rumo à Compreensão de Cenas do Mundo Real a partir de Imagens Não Posicionadas

Resumo

A estimativa de layout e a detecção de objetos 3D são duas tarefas fundamentais na compreensão de cenas internas. Quando combinadas, elas permitem a criação de uma representação espacial compacta, mas semanticamente rica de uma cena. As abordagens existentes geralmente dependem de entrada de nuvem de pontos, o que representa uma grande limitação, já que a maioria das câmeras de consumo não possui sensores de profundidade, e dados visuais continuam sendo muito mais comuns. Nós abordamos essa questão com o TUN3D, o primeiro método que lida com a estimativa de layout e a detecção de objetos 3D em varreduras reais, utilizando imagens multi-visão como entrada, e não requer poses de câmera de verdade ou supervisão de profundidade. Nossa abordagem é baseada em uma estrutura leve de convolução esparsa e emprega duas cabeças dedicadas: uma para detecção de objetos 3D e outra para estimativa de layout, aproveitando uma nova e eficiente representação paramétrica de paredes. Experimentos extensivos mostram que o TUN3D alcança desempenho de ponta em três benchmarks desafiadores de compreensão de cenas: (i) utilizando nuvens de pontos de verdade, (ii) utilizando imagens com poses, e (iii) utilizando imagens sem poses. Enquanto desempenha de forma equivalente a métodos especializados de detecção de objetos 3D, o TUN3D avança significativamente na estimativa de layout, estabelecendo um novo padrão na compreensão holística de cenas internas. O código está disponível em https://github.com/col14m/tun3d.

English

Layout estimation and 3D object detection are two fundamental tasks in indoor scene understanding. When combined, they enable the creation of a compact yet semantically rich spatial representation of a scene. Existing approaches typically rely on point cloud input, which poses a major limitation since most consumer cameras lack depth sensors and visual-only data remains far more common. We address this issue with TUN3D, the first method that tackles joint layout estimation and 3D object detection in real scans, given multi-view images as input, and does not require ground-truth camera poses or depth supervision. Our approach builds on a lightweight sparse-convolutional backbone and employs two dedicated heads: one for 3D object detection and one for layout estimation, leveraging a novel and effective parametric wall representation. Extensive experiments show that TUN3D achieves state-of-the-art performance across three challenging scene understanding benchmarks: (i) using ground-truth point clouds, (ii) using posed images, and (iii) using unposed images. While performing on par with specialized 3D object detection methods, TUN3D significantly advances layout estimation, setting a new benchmark in holistic indoor scene understanding. Code is available at https://github.com/col14m/tun3d .

TUN3D: Rumo à Compreensão de Cenas do Mundo Real a partir de Imagens Não Posicionadas

TUN3D: Towards Real-World Scene Understanding from Unposed Images

Resumo

Support