ChatPaper.aiChatPaper

3D CoCa v2: Contrastieve Leermodellen met Testtijdzoektocht voor Generaliseerbare Ruimtelijke Intelligentie

3D CoCa v2: Contrastive Learners with Test-Time Search for Generalizable Spatial Intelligence

January 10, 2026
Auteurs: Hao Tang, Ting Huang, Zeyu Zhang
cs.AI

Samenvatting

Ruimtelijke intelligentie verwijst naar het vermogen om objecten en hun relaties in driedimensionale omgevingen waar te nemen, te begrijpen en te beschrijven, wat een basis vormt voor belichaamde perceptie en scènebegrip. 3D-beschrijving (captioning) beoogt 3D-scènes in natuurlijke taal te beschrijven; dit blijft echter een uitdaging vanwege de schaarste en onregelmatigheid van pointclouds en, cruciaal, de zwakke verankering en beperkte out-of-distribution (OOD)-generalizatie van bestaande beschrijvers over sterk uiteenlopende omgevingen, inclusief binnen- en buitenomgevingen. Om deze uitdaging aan te pakken, stellen we 3D CoCa v2 voor, een generaliseerbaar 3D-beschrijvingsraamwerk dat contrastief visie-taalleren verenigt met 3D-beschrijvingsgeneratie en de robuustheid verder verbetert via test-time search (TTS) zonder de parameters van de beschrijver bij te werken. 3D CoCa v2 bouwt voort op een bevroren CLIP-gebaseerde semantische prior, een ruimtelijk bewuste 3D-scène-encoder voor geometrie, en een multimodale decoder die gezamenlijk wordt geoptimaliseerd met contrastieve en beschrijvingsdoelstellingen, zonder externe detectoren of handmatige voorstellen. Tijdens inferentie produceert TTS diverse beschrijvingskandidaten en voert het een beloningsgeleide selectie uit met behulp van een compacte scènesamenvatting. Experimenten tonen verbeteringen ten opzichte van 3D CoCa van +1.50 CIDEr@0.5IoU op ScanRefer en +1.61 CIDEr@0.5IoU op Nr3D, en +3.8 CIDEr@0.25 in zero-shot OOD-evaluatie op TOD3Cap. Code wordt vrijgegeven op https://github.com/AIGeeksGroup/3DCoCav2.
English
Spatial intelligence refers to the ability to perceive, reason about, and describe objects and their relationships within three-dimensional environments, forming a foundation for embodied perception and scene understanding. 3D captioning aims to describe 3D scenes in natural language; however, it remains challenging due to the sparsity and irregularity of point clouds and, more critically, the weak grounding and limited out-of-distribution (OOD) generalization of existing captioners across drastically different environments, including indoor and outdoor 3D scenes. To address this challenge, we propose 3D CoCa v2, a generalizable 3D captioning framework that unifies contrastive vision-language learning with 3D caption generation and further improves robustness via test-time search (TTS) without updating the captioner parameters. 3D CoCa v2 builds on a frozen CLIP-based semantic prior, a spatially-aware 3D scene encoder for geometry, and a multimodal decoder jointly optimized with contrastive and captioning objectives, avoiding external detectors or handcrafted proposals. At inference, TTS produces diverse caption candidates and performs reward-guided selection using a compact scene summary. Experiments show improvements over 3D CoCa of +1.50 CIDEr@0.5IoU on ScanRefer and +1.61 CIDEr@0.5IoU on Nr3D, and +3.8 CIDEr@0.25 in zero-shot OOD evaluation on TOD3Cap. Code will be released at https://github.com/AIGeeksGroup/3DCoCav2.
PDF13January 31, 2026