3D CoCa v2: Apprendimento Contrastivo con Ricerca al Momento del Test per un'Intelligenza Spaziale Generalizzabile
3D CoCa v2: Contrastive Learners with Test-Time Search for Generalizable Spatial Intelligence
January 10, 2026
Autori: Hao Tang, Ting Huang, Zeyu Zhang
cs.AI
Abstract
L'intelligenza spaziale si riferisce alla capacità di percepire, ragionare e descrivere oggetti e le loro relazioni all'interno di ambienti tridimensionali, costituendo una base per la percezione incarnata e la comprensione della scena. Il captioning 3D mira a descrivere scene 3D in linguaggio naturale; tuttavia, rimane una sfida a causa della sparsità e irregolarità delle nuvole di punti e, ancor più criticamente, del debole grounding e della limitata generalizzazione out-of-distribution (OOD) dei captioner esistenti in ambienti drasticamente diversi, incluse scene 3D indoor e outdoor. Per affrontare questa sfida, proponiamo 3D CoCa v2, un framework di captioning 3D generalizzabile che unisce l'apprendimento contrastivo visione-linguaggio con la generazione di caption 3D e migliora ulteriormente la robustezza tramite una ricerca al tempo di test (TTS) senza aggiornare i parametri del captioner. 3D CoCa v2 si basa su un priore semantico congelato basato su CLIP, un codificatore di scene 3D spatialmente consapevole per la geometria e un decoder multimodale ottimizzato congiuntamente con obiettivi contrastivi e di captioning, evitando rilevatori esterni o proposte artigianali. In fase di inferenza, la TTS produce candidati di caption diversificati ed esegue una selezione guidata da ricompensa utilizzando un riepilogo compatto della scena. Gli esperimenti mostrano miglioramenti rispetto a 3D CoCa di +1.50 CIDEr@0.5IoU su ScanRefer e +1.61 CIDEr@0.5IoU su Nr3D, e +3.8 CIDEr@0.25 nella valutazione zero-shot OOD su TOD3Cap. Il codice sarà rilasciato su https://github.com/AIGeeksGroup/3DCoCav2.
English
Spatial intelligence refers to the ability to perceive, reason about, and describe objects and their relationships within three-dimensional environments, forming a foundation for embodied perception and scene understanding. 3D captioning aims to describe 3D scenes in natural language; however, it remains challenging due to the sparsity and irregularity of point clouds and, more critically, the weak grounding and limited out-of-distribution (OOD) generalization of existing captioners across drastically different environments, including indoor and outdoor 3D scenes. To address this challenge, we propose 3D CoCa v2, a generalizable 3D captioning framework that unifies contrastive vision-language learning with 3D caption generation and further improves robustness via test-time search (TTS) without updating the captioner parameters. 3D CoCa v2 builds on a frozen CLIP-based semantic prior, a spatially-aware 3D scene encoder for geometry, and a multimodal decoder jointly optimized with contrastive and captioning objectives, avoiding external detectors or handcrafted proposals. At inference, TTS produces diverse caption candidates and performs reward-guided selection using a compact scene summary. Experiments show improvements over 3D CoCa of +1.50 CIDEr@0.5IoU on ScanRefer and +1.61 CIDEr@0.5IoU on Nr3D, and +3.8 CIDEr@0.25 in zero-shot OOD evaluation on TOD3Cap. Code will be released at https://github.com/AIGeeksGroup/3DCoCav2.