3D CoCa v2 : Apprenants par contraste avec recherche au moment du test pour une intelligence spatiale généralisable
3D CoCa v2: Contrastive Learners with Test-Time Search for Generalizable Spatial Intelligence
January 10, 2026
papers.authors: Hao Tang, Ting Huang, Zeyu Zhang
cs.AI
papers.abstract
L'intelligence spatiale désigne la capacité à percevoir, raisonner et décrire les objets et leurs relations dans des environnements tridimensionnels, formant une base pour la perception incarnée et la compréhension de scènes. La légende 3D vise à décrire des scènes 3D en langage naturel ; cependant, elle reste difficile en raison de la parcimonie et de l'irrégularité des nuages de points et, plus crucialement, de l'ancrage faible et de la généralisation limitée hors distribution (OOD) des légendeurs existants dans des environnements radicalement différents, incluant les scènes 3D intérieures et extérieures. Pour relever ce défi, nous proposons 3D CoCa v2, un cadre de légende 3D généralisable qui unifie l'apprentissage vision-langage contrastif avec la génération de légendes 3D et améliore davantage la robustesse via une recherche au moment du test (TTS) sans mise à jour des paramètres du légendeur. 3D CoCa v2 s'appuie sur un préalable sémantique figé basé sur CLIP, un encodeur de scène 3D spatialement conscient pour la géométrie, et un décodeur multimodal optimisé conjointement avec des objectifs contrastifs et de légende, évitant les détecteurs externes ou les propositions artisanales. Lors de l'inférence, TTS produit des candidats de légende diversifiés et effectue une sélection guidée par récompense en utilisant un résumé compact de la scène. Les expériences montrent des améliorations par rapport à 3D CoCa de +1,50 CIDEr@0,5IoU sur ScanRefer et +1,61 CIDEr@0,5IoU sur Nr3D, et +3,8 CIDEr@0,25 en évaluation OOD zero-shot sur TOD3Cap. Le code sera disponible sur https://github.com/AIGeeksGroup/3DCoCav2.
English
Spatial intelligence refers to the ability to perceive, reason about, and describe objects and their relationships within three-dimensional environments, forming a foundation for embodied perception and scene understanding. 3D captioning aims to describe 3D scenes in natural language; however, it remains challenging due to the sparsity and irregularity of point clouds and, more critically, the weak grounding and limited out-of-distribution (OOD) generalization of existing captioners across drastically different environments, including indoor and outdoor 3D scenes. To address this challenge, we propose 3D CoCa v2, a generalizable 3D captioning framework that unifies contrastive vision-language learning with 3D caption generation and further improves robustness via test-time search (TTS) without updating the captioner parameters. 3D CoCa v2 builds on a frozen CLIP-based semantic prior, a spatially-aware 3D scene encoder for geometry, and a multimodal decoder jointly optimized with contrastive and captioning objectives, avoiding external detectors or handcrafted proposals. At inference, TTS produces diverse caption candidates and performs reward-guided selection using a compact scene summary. Experiments show improvements over 3D CoCa of +1.50 CIDEr@0.5IoU on ScanRefer and +1.61 CIDEr@0.5IoU on Nr3D, and +3.8 CIDEr@0.25 in zero-shot OOD evaluation on TOD3Cap. Code will be released at https://github.com/AIGeeksGroup/3DCoCav2.