Poda de Voxels Esparsos Guiada por Texto para Ancoragem Visual 3D Eficiente

Resumo

Neste artigo, propomos uma arquitetura eficiente de convolução multinível para a tarefa de localização visual 3D. Os métodos convencionais têm dificuldade em atender aos requisitos de inferência em tempo real devido à arquitetura em duas etapas ou baseada em pontos. Inspirados pelo sucesso da arquitetura de convolução totalmente esparsa multinível na detecção de objetos 3D, nosso objetivo é construir um novo framework de localização visual 3D seguindo essa rota técnica. No entanto, como na tarefa de localização visual 3D a representação da cena 3D deve interagir profundamente com as características de texto, a arquitetura baseada em convolução esparsa é ineficiente para essa interação devido à grande quantidade de características de voxel. Para isso, propomos a poda guiada por texto (TGP) e a adição baseada em completação (CBA) para fundir de forma eficiente a representação da cena 3D e as características de texto por meio de poda gradual de regiões e completação de alvos. Especificamente, a TGP esparsifica iterativamente a representação da cena 3D e, assim, interage eficientemente as características de voxel com as características de texto por meio de atenção cruzada. Para mitigar o efeito da poda sobre informações geométricas delicadas, a CBA corrige adaptativamente a região superpoda por meio de completação de voxel com sobrecarga computacional insignificante. Em comparação com métodos anteriores de estágio único, nosso método alcança a maior velocidade de inferência e supera o método mais rápido anterior em 100% de FPS. Nosso método também alcança precisão de ponta, mesmo em comparação com métodos de dois estágios, com uma vantagem de +1,13 em Acc@0.5 no ScanRefer, e vantagens de +2,6 e +3,2 no NR3D e SR3D, respectivamente. O código está disponível em https://github.com/GWxuan/TSP3D{https://github.com/GWxuan/TSP3D}.

English

In this paper, we propose an efficient multi-level convolution architecture for 3D visual grounding. Conventional methods are difficult to meet the requirements of real-time inference due to the two-stage or point-based architecture. Inspired by the success of multi-level fully sparse convolutional architecture in 3D object detection, we aim to build a new 3D visual grounding framework following this technical route. However, as in 3D visual grounding task the 3D scene representation should be deeply interacted with text features, sparse convolution-based architecture is inefficient for this interaction due to the large amount of voxel features. To this end, we propose text-guided pruning (TGP) and completion-based addition (CBA) to deeply fuse 3D scene representation and text features in an efficient way by gradual region pruning and target completion. Specifically, TGP iteratively sparsifies the 3D scene representation and thus efficiently interacts the voxel features with text features by cross-attention. To mitigate the affect of pruning on delicate geometric information, CBA adaptively fixes the over-pruned region by voxel completion with negligible computational overhead. Compared with previous single-stage methods, our method achieves top inference speed and surpasses previous fastest method by 100\% FPS. Our method also achieves state-of-the-art accuracy even compared with two-stage methods, with +1.13 lead of Acc@0.5 on ScanRefer, and +2.6 and +3.2 leads on NR3D and SR3D respectively. The code is available at https://github.com/GWxuan/TSP3D{https://github.com/GWxuan/TSP3D}.

Poda de Voxels Esparsos Guiada por Texto para Ancoragem Visual 3D Eficiente

Text-guided Sparse Voxel Pruning for Efficient 3D Visual Grounding

Resumo

Support