Una rassegna sul rilevamento di oggetti 3D con modelli visione-linguaggio

Abstract

Questa revisione fornisce un'analisi sistematica di un'indagine completa sulla rilevazione di oggetti 3D con modelli visione-linguaggio (VLMs), un'area in rapida evoluzione all'intersezione tra visione 3D e intelligenza artificiale multimodale. Esaminando oltre 100 articoli di ricerca, offriamo la prima analisi sistematica dedicata alla rilevazione di oggetti 3D con modelli visione-linguaggio. Iniziamo delineando le sfide uniche della rilevazione di oggetti 3D con modelli visione-linguaggio, sottolineando le differenze rispetto alla rilevazione 2D nel ragionamento spaziale e nella complessità dei dati. Gli approcci tradizionali che utilizzano nuvole di punti e griglie voxel vengono confrontati con i moderni framework visione-linguaggio come CLIP e 3D LLMs, che abilitano la rilevazione open-vocabulary e la generalizzazione zero-shot. Esaminiamo le architetture chiave, le strategie di pre-addestramento e i metodi di prompt engineering che allineano le caratteristiche testuali e 3D per una rilevazione efficace di oggetti 3D con modelli visione-linguaggio. Vengono discussi esempi di visualizzazione e benchmark di valutazione per illustrare le prestazioni e il comportamento. Infine, evidenziamo le attuali sfide, come la limitatezza dei dataset 3D-linguaggio e le esigenze computazionali, e proponiamo direzioni future di ricerca per far progredire la rilevazione di oggetti 3D con modelli visione-linguaggio. >Rilevazione di Oggetti, Modelli Visione-Linguaggio, Agenti, VLMs, LLMs, AI

English

This review provides a systematic analysis of comprehensive survey of 3D object detection with vision-language models(VLMs) , a rapidly advancing area at the intersection of 3D vision and multimodal AI. By examining over 100 research papers, we provide the first systematic analysis dedicated to 3D object detection with vision-language models. We begin by outlining the unique challenges of 3D object detection with vision-language models, emphasizing differences from 2D detection in spatial reasoning and data complexity. Traditional approaches using point clouds and voxel grids are compared to modern vision-language frameworks like CLIP and 3D LLMs, which enable open-vocabulary detection and zero-shot generalization. We review key architectures, pretraining strategies, and prompt engineering methods that align textual and 3D features for effective 3D object detection with vision-language models. Visualization examples and evaluation benchmarks are discussed to illustrate performance and behavior. Finally, we highlight current challenges, such as limited 3D-language datasets and computational demands, and propose future research directions to advance 3D object detection with vision-language models. >Object Detection, Vision-Language Models, Agents, VLMs, LLMs, AI

Una rassegna sul rilevamento di oggetti 3D con modelli visione-linguaggio

A Review of 3D Object Detection with Vision-Language Models

Abstract

Support