Una revisión de la detección de objetos 3D con modelos de visión y lenguaje
A Review of 3D Object Detection with Vision-Language Models
April 25, 2025
Autores: Ranjan Sapkota, Konstantinos I Roumeliotis, Rahul Harsha Cheppally, Marco Flores Calero, Manoj Karkee
cs.AI
Resumen
Esta revisión ofrece un análisis sistemático de un estudio exhaustivo sobre la detección de objetos 3D con modelos de visión y lenguaje (VLMs), un área en rápido avance en la intersección de la visión 3D y la IA multimodal. Al examinar más de 100 artículos de investigación, proporcionamos el primer análisis sistemático dedicado a la detección de objetos 3D con modelos de visión y lenguaje. Comenzamos delineando los desafíos únicos de la detección de objetos 3D con estos modelos, enfatizando las diferencias con la detección en 2D en cuanto al razonamiento espacial y la complejidad de los datos. Los enfoques tradicionales que utilizan nubes de puntos y mallas de vóxeles se comparan con marcos modernos de visión y lenguaje como CLIP y LLMs 3D, que permiten la detección de vocabulario abierto y la generalización en cero disparos. Revisamos arquitecturas clave, estrategias de preentrenamiento y métodos de ingeniería de prompts que alinean características textuales y 3D para una detección efectiva de objetos 3D con modelos de visión y lenguaje. Se discuten ejemplos de visualización y benchmarks de evaluación para ilustrar el rendimiento y el comportamiento. Finalmente, destacamos los desafíos actuales, como la limitación de conjuntos de datos 3D-lenguaje y las demandas computacionales, y proponemos direcciones futuras de investigación para avanzar en la detección de objetos 3D con modelos de visión y lenguaje. >Detección de Objetos, Modelos de Visión y Lenguaje, Agentes, VLMs, LLMs, IA.
English
This review provides a systematic analysis of comprehensive survey of 3D
object detection with vision-language models(VLMs) , a rapidly advancing area
at the intersection of 3D vision and multimodal AI. By examining over 100
research papers, we provide the first systematic analysis dedicated to 3D
object detection with vision-language models. We begin by outlining the unique
challenges of 3D object detection with vision-language models, emphasizing
differences from 2D detection in spatial reasoning and data complexity.
Traditional approaches using point clouds and voxel grids are compared to
modern vision-language frameworks like CLIP and 3D LLMs, which enable
open-vocabulary detection and zero-shot generalization. We review key
architectures, pretraining strategies, and prompt engineering methods that
align textual and 3D features for effective 3D object detection with
vision-language models. Visualization examples and evaluation benchmarks are
discussed to illustrate performance and behavior. Finally, we highlight current
challenges, such as limited 3D-language datasets and computational demands, and
propose future research directions to advance 3D object detection with
vision-language models. >Object Detection, Vision-Language Models, Agents,
VLMs, LLMs, AISummary
AI-Generated Summary