ChatPaper.aiChatPaper

テキスト誘導型スパースボクセルプルーニングによる効率的な3D視覚的グラウンディング

Text-guided Sparse Voxel Pruning for Efficient 3D Visual Grounding

February 14, 2025
著者: Wenxuan Guo, Xiuwei Xu, Ziwei Wang, Jianjiang Feng, Jie Zhou, Jiwen Lu
cs.AI

要旨

本論文では、3D視覚的接地のための効率的なマルチレベル畳み込みアーキテクチャを提案する。従来の手法は、2段階またはポイントベースのアーキテクチャのため、リアルタイム推論の要件を満たすことが困難であった。3D物体検出におけるマルチレベル完全疎畳み込みアーキテクチャの成功に触発され、我々はこの技術路線に従って新しい3D視覚的接地フレームワークを構築することを目指す。しかし、3D視覚的接地タスクでは、3Dシーン表現がテキスト特徴量と深く相互作用する必要があるため、疎畳み込みベースのアーキテクチャは大量のボクセル特徴量のためにこの相互作用に非効率である。このため、我々はテキスト誘導プルーニング(TGP)と補完ベース追加(CBA)を提案し、段階的な領域プルーニングとターゲット補完によって3Dシーン表現とテキスト特徴量を効率的に深く融合させる。具体的には、TGPは3Dシーン表現を反復的に疎化し、クロスアテンションによってボクセル特徴量とテキスト特徴量を効率的に相互作用させる。プルーニングが繊細な幾何学情報に与える影響を緩和するために、CBAは計算オーバーヘッドを無視できる程度にボクセル補完によって過剰にプルーニングされた領域を適応的に修正する。従来のシングルステージ手法と比較して、我々の手法は最高の推論速度を達成し、従来の最速手法を100% FPSで上回る。また、2段階手法と比較しても最先端の精度を達成し、ScanReferでは[email protected]で+1.13、NR3DとSR3Dではそれぞれ+2.6と+3.2のリードを実現した。コードはhttps://github.com/GWxuan/TSP3D{https://github.com/GWxuan/TSP3D}で公開されている。
English
In this paper, we propose an efficient multi-level convolution architecture for 3D visual grounding. Conventional methods are difficult to meet the requirements of real-time inference due to the two-stage or point-based architecture. Inspired by the success of multi-level fully sparse convolutional architecture in 3D object detection, we aim to build a new 3D visual grounding framework following this technical route. However, as in 3D visual grounding task the 3D scene representation should be deeply interacted with text features, sparse convolution-based architecture is inefficient for this interaction due to the large amount of voxel features. To this end, we propose text-guided pruning (TGP) and completion-based addition (CBA) to deeply fuse 3D scene representation and text features in an efficient way by gradual region pruning and target completion. Specifically, TGP iteratively sparsifies the 3D scene representation and thus efficiently interacts the voxel features with text features by cross-attention. To mitigate the affect of pruning on delicate geometric information, CBA adaptively fixes the over-pruned region by voxel completion with negligible computational overhead. Compared with previous single-stage methods, our method achieves top inference speed and surpasses previous fastest method by 100\% FPS. Our method also achieves state-of-the-art accuracy even compared with two-stage methods, with +1.13 lead of [email protected] on ScanRefer, and +2.6 and +3.2 leads on NR3D and SR3D respectively. The code is available at https://github.com/GWxuan/TSP3D{https://github.com/GWxuan/TSP3D}.

Summary

AI-Generated Summary

PDF62February 17, 2025