Une revue de la détection d'objets 3D avec des modèles vision-langage
A Review of 3D Object Detection with Vision-Language Models
April 25, 2025
Auteurs: Ranjan Sapkota, Konstantinos I Roumeliotis, Rahul Harsha Cheppally, Marco Flores Calero, Manoj Karkee
cs.AI
Résumé
Cette revue propose une analyse systématique d'une étude approfondie de la détection d'objets 3D avec des modèles vision-langage (VLMs), un domaine en pleine expansion à l'intersection de la vision 3D et de l'intelligence artificielle multimodale. En examinant plus de 100 articles de recherche, nous fournissons la première analyse systématique dédiée à la détection d'objets 3D avec des modèles vision-langage. Nous commençons par décrire les défis spécifiques de la détection d'objets 3D avec ces modèles, en mettant l'accent sur les différences par rapport à la détection 2D en termes de raisonnement spatial et de complexité des données. Les approches traditionnelles utilisant des nuages de points et des grilles voxel sont comparées aux frameworks modernes vision-langage comme CLIP et les LLMs 3D, qui permettent une détection en vocabulaire ouvert et une généralisation zero-shot. Nous passons en revue les architectures clés, les stratégies de pré-entraînement et les méthodes d'ingénierie de prompts qui alignent les caractéristiques textuelles et 3D pour une détection efficace d'objets 3D avec des modèles vision-langage. Des exemples de visualisation et des benchmarks d'évaluation sont discutés pour illustrer les performances et les comportements. Enfin, nous soulignons les défis actuels, tels que la limitation des ensembles de données 3D-langage et les exigences computationnelles, et proposons des directions de recherche futures pour faire progresser la détection d'objets 3D avec des modèles vision-langage. > Détection d'objets, Modèles Vision-Langage, Agents, VLMs, LLMs, IA
English
This review provides a systematic analysis of comprehensive survey of 3D
object detection with vision-language models(VLMs) , a rapidly advancing area
at the intersection of 3D vision and multimodal AI. By examining over 100
research papers, we provide the first systematic analysis dedicated to 3D
object detection with vision-language models. We begin by outlining the unique
challenges of 3D object detection with vision-language models, emphasizing
differences from 2D detection in spatial reasoning and data complexity.
Traditional approaches using point clouds and voxel grids are compared to
modern vision-language frameworks like CLIP and 3D LLMs, which enable
open-vocabulary detection and zero-shot generalization. We review key
architectures, pretraining strategies, and prompt engineering methods that
align textual and 3D features for effective 3D object detection with
vision-language models. Visualization examples and evaluation benchmarks are
discussed to illustrate performance and behavior. Finally, we highlight current
challenges, such as limited 3D-language datasets and computational demands, and
propose future research directions to advance 3D object detection with
vision-language models. >Object Detection, Vision-Language Models, Agents,
VLMs, LLMs, AISummary
AI-Generated Summary