Una rassegna sul rilevamento di oggetti 3D con modelli visione-linguaggio
A Review of 3D Object Detection with Vision-Language Models
April 25, 2025
Autori: Ranjan Sapkota, Konstantinos I Roumeliotis, Rahul Harsha Cheppally, Marco Flores Calero, Manoj Karkee
cs.AI
Abstract
Questa revisione fornisce un'analisi sistematica di un'indagine completa sulla rilevazione di oggetti 3D con modelli visione-linguaggio (VLMs), un'area in rapida evoluzione all'intersezione tra visione 3D e intelligenza artificiale multimodale. Esaminando oltre 100 articoli di ricerca, offriamo la prima analisi sistematica dedicata alla rilevazione di oggetti 3D con modelli visione-linguaggio. Iniziamo delineando le sfide uniche della rilevazione di oggetti 3D con modelli visione-linguaggio, sottolineando le differenze rispetto alla rilevazione 2D nel ragionamento spaziale e nella complessità dei dati. Gli approcci tradizionali che utilizzano nuvole di punti e griglie voxel vengono confrontati con i moderni framework visione-linguaggio come CLIP e 3D LLMs, che abilitano la rilevazione open-vocabulary e la generalizzazione zero-shot. Esaminiamo le architetture chiave, le strategie di pre-addestramento e i metodi di prompt engineering che allineano le caratteristiche testuali e 3D per una rilevazione efficace di oggetti 3D con modelli visione-linguaggio. Vengono discussi esempi di visualizzazione e benchmark di valutazione per illustrare le prestazioni e il comportamento. Infine, evidenziamo le attuali sfide, come la limitatezza dei dataset 3D-linguaggio e le esigenze computazionali, e proponiamo direzioni future di ricerca per far progredire la rilevazione di oggetti 3D con modelli visione-linguaggio. >Rilevazione di Oggetti, Modelli Visione-Linguaggio, Agenti, VLMs, LLMs, AI
English
This review provides a systematic analysis of comprehensive survey of 3D
object detection with vision-language models(VLMs) , a rapidly advancing area
at the intersection of 3D vision and multimodal AI. By examining over 100
research papers, we provide the first systematic analysis dedicated to 3D
object detection with vision-language models. We begin by outlining the unique
challenges of 3D object detection with vision-language models, emphasizing
differences from 2D detection in spatial reasoning and data complexity.
Traditional approaches using point clouds and voxel grids are compared to
modern vision-language frameworks like CLIP and 3D LLMs, which enable
open-vocabulary detection and zero-shot generalization. We review key
architectures, pretraining strategies, and prompt engineering methods that
align textual and 3D features for effective 3D object detection with
vision-language models. Visualization examples and evaluation benchmarks are
discussed to illustrate performance and behavior. Finally, we highlight current
challenges, such as limited 3D-language datasets and computational demands, and
propose future research directions to advance 3D object detection with
vision-language models. >Object Detection, Vision-Language Models, Agents,
VLMs, LLMs, AISummary
AI-Generated Summary