Poda de Voxels Esparsos Guiada por Texto para Ancoragem Visual 3D Eficiente
Text-guided Sparse Voxel Pruning for Efficient 3D Visual Grounding
February 14, 2025
Autores: Wenxuan Guo, Xiuwei Xu, Ziwei Wang, Jianjiang Feng, Jie Zhou, Jiwen Lu
cs.AI
Resumo
Neste artigo, propomos uma arquitetura eficiente de convolução multinível para a tarefa de localização visual 3D. Os métodos convencionais têm dificuldade em atender aos requisitos de inferência em tempo real devido à arquitetura em duas etapas ou baseada em pontos. Inspirados pelo sucesso da arquitetura de convolução totalmente esparsa multinível na detecção de objetos 3D, nosso objetivo é construir um novo framework de localização visual 3D seguindo essa rota técnica. No entanto, como na tarefa de localização visual 3D a representação da cena 3D deve interagir profundamente com as características de texto, a arquitetura baseada em convolução esparsa é ineficiente para essa interação devido à grande quantidade de características de voxel. Para isso, propomos a poda guiada por texto (TGP) e a adição baseada em completação (CBA) para fundir de forma eficiente a representação da cena 3D e as características de texto por meio de poda gradual de regiões e completação de alvos. Especificamente, a TGP esparsifica iterativamente a representação da cena 3D e, assim, interage eficientemente as características de voxel com as características de texto por meio de atenção cruzada. Para mitigar o efeito da poda sobre informações geométricas delicadas, a CBA corrige adaptativamente a região superpoda por meio de completação de voxel com sobrecarga computacional insignificante. Em comparação com métodos anteriores de estágio único, nosso método alcança a maior velocidade de inferência e supera o método mais rápido anterior em 100% de FPS. Nosso método também alcança precisão de ponta, mesmo em comparação com métodos de dois estágios, com uma vantagem de +1,13 em [email protected] no ScanRefer, e vantagens de +2,6 e +3,2 no NR3D e SR3D, respectivamente. O código está disponível em https://github.com/GWxuan/TSP3D{https://github.com/GWxuan/TSP3D}.
English
In this paper, we propose an efficient multi-level convolution architecture
for 3D visual grounding. Conventional methods are difficult to meet the
requirements of real-time inference due to the two-stage or point-based
architecture. Inspired by the success of multi-level fully sparse convolutional
architecture in 3D object detection, we aim to build a new 3D visual grounding
framework following this technical route. However, as in 3D visual grounding
task the 3D scene representation should be deeply interacted with text
features, sparse convolution-based architecture is inefficient for this
interaction due to the large amount of voxel features. To this end, we propose
text-guided pruning (TGP) and completion-based addition (CBA) to deeply fuse 3D
scene representation and text features in an efficient way by gradual region
pruning and target completion. Specifically, TGP iteratively sparsifies the 3D
scene representation and thus efficiently interacts the voxel features with
text features by cross-attention. To mitigate the affect of pruning on delicate
geometric information, CBA adaptively fixes the over-pruned region by voxel
completion with negligible computational overhead. Compared with previous
single-stage methods, our method achieves top inference speed and surpasses
previous fastest method by 100\% FPS. Our method also achieves state-of-the-art
accuracy even compared with two-stage methods, with +1.13 lead of [email protected] on
ScanRefer, and +2.6 and +3.2 leads on NR3D and SR3D respectively. The code
is available at
https://github.com/GWxuan/TSP3D{https://github.com/GWxuan/TSP3D}.Summary
AI-Generated Summary