ChatPaper.aiChatPaper

Poda de Vóxeles Dispersos Guiada por Texto para un Anclaje Visual 3D Eficiente

Text-guided Sparse Voxel Pruning for Efficient 3D Visual Grounding

February 14, 2025
Autores: Wenxuan Guo, Xiuwei Xu, Ziwei Wang, Jianjiang Feng, Jie Zhou, Jiwen Lu
cs.AI

Resumen

En este documento, proponemos una arquitectura de convolución multinivel eficiente para el anclaje visual en 3D. Los métodos convencionales tienen dificultades para cumplir con los requisitos de inferencia en tiempo real debido a la arquitectura en dos etapas o basada en puntos. Inspirados por el éxito de la arquitectura de convolución completamente dispersa multinivel en la detección de objetos en 3D, nuestro objetivo es construir un nuevo marco de anclaje visual en 3D siguiendo esta ruta técnica. Sin embargo, en la tarea de anclaje visual en 3D, la representación de la escena en 3D debe interactuar profundamente con las características de texto, y la arquitectura basada en convolución dispersa es ineficiente para esta interacción debido a la gran cantidad de características de voxel. Con este fin, proponemos el podado guiado por texto (TGP, por sus siglas en inglés) y la adición basada en completado (CBA, por sus siglas en inglés) para fusionar profundamente la representación de la escena en 3D y las características de texto de manera eficiente mediante el podado gradual de regiones y el completado de objetivos. Específicamente, TGP esparsifica de forma iterativa la representación de la escena en 3D y, por lo tanto, interactúa eficientemente las características de voxel con las características de texto mediante la atención cruzada. Para mitigar el efecto del podado en la información geométrica delicada, CBA corrige de forma adaptativa la región sobre-podada mediante el completado de voxel con un costo computacional insignificante. En comparación con los métodos anteriores de una sola etapa, nuestro método logra la máxima velocidad de inferencia y supera al método más rápido anterior en un 100\% de FPS. Nuestro método también logra una precisión de vanguardia incluso en comparación con los métodos en dos etapas, con una ventaja de +1.13 en [email protected] en ScanRefer, y ventajas de +2.6 y +3.2 en NR3D y SR3D respectivamente. El código está disponible en https://github.com/GWxuan/TSP3D.
English
In this paper, we propose an efficient multi-level convolution architecture for 3D visual grounding. Conventional methods are difficult to meet the requirements of real-time inference due to the two-stage or point-based architecture. Inspired by the success of multi-level fully sparse convolutional architecture in 3D object detection, we aim to build a new 3D visual grounding framework following this technical route. However, as in 3D visual grounding task the 3D scene representation should be deeply interacted with text features, sparse convolution-based architecture is inefficient for this interaction due to the large amount of voxel features. To this end, we propose text-guided pruning (TGP) and completion-based addition (CBA) to deeply fuse 3D scene representation and text features in an efficient way by gradual region pruning and target completion. Specifically, TGP iteratively sparsifies the 3D scene representation and thus efficiently interacts the voxel features with text features by cross-attention. To mitigate the affect of pruning on delicate geometric information, CBA adaptively fixes the over-pruned region by voxel completion with negligible computational overhead. Compared with previous single-stage methods, our method achieves top inference speed and surpasses previous fastest method by 100\% FPS. Our method also achieves state-of-the-art accuracy even compared with two-stage methods, with +1.13 lead of [email protected] on ScanRefer, and +2.6 and +3.2 leads on NR3D and SR3D respectively. The code is available at https://github.com/GWxuan/TSP3D{https://github.com/GWxuan/TSP3D}.

Summary

AI-Generated Summary

PDF62February 17, 2025