3D CoCa v2:一般化可能な空間知能のためのテスト時検索を備えた対照学習モデル
3D CoCa v2: Contrastive Learners with Test-Time Search for Generalizable Spatial Intelligence
January 10, 2026
著者: Hao Tang, Ting Huang, Zeyu Zhang
cs.AI
要旨
空間知能とは、3次元環境内における物体とその関係を認識・推論・記述する能力を指し、具象的知覚とシーン理解の基盤を形成する。3Dキャプショニングは3Dシーンを自然言語で記述することを目的とするが、点群の疎性と不規則性、さらに重要な既存キャプショナの接地性の弱さや、屋内/屋外3Dシーンといった大きく異なる環境間での分布外(OOD)汎化性能の限界により、依然として課題が多い。この課題解決に向け、我々は対照的視覚言語学習と3Dキャプション生成を統合し、さらに推論時検索(TTS)によるパラメータ更新なしのロバスト性向上を図る汎用的3Dキャプションフレームワーク3D CoCa v2を提案する。本手法は、凍結されたCLIPベースの意味論的先験知識、幾何学情報を扱う空間認識型3Dシーンエンコーダ、対照学習とキャプショニング目標を共同最適化するマルチモーダルデコーダを基盤とし、外部検出器や手作りの提案を必要としない。推論時にはTTSが多様なキャプション候補を生成し、コンパクトなシーン要約を用いた報酬誘導選択を実行する。実験では、ScanReferでCIDEr@0.5IoUが+1.50、Nr3Dで+1.61、TOD3CapのゼロショットOOD評価でCIDEr@0.25が+3.8向上し、3D CoCaを上回る結果を示した。コードはhttps://github.com/AIGeeksGroup/3DCoCav2 で公開予定である。
English
Spatial intelligence refers to the ability to perceive, reason about, and describe objects and their relationships within three-dimensional environments, forming a foundation for embodied perception and scene understanding. 3D captioning aims to describe 3D scenes in natural language; however, it remains challenging due to the sparsity and irregularity of point clouds and, more critically, the weak grounding and limited out-of-distribution (OOD) generalization of existing captioners across drastically different environments, including indoor and outdoor 3D scenes. To address this challenge, we propose 3D CoCa v2, a generalizable 3D captioning framework that unifies contrastive vision-language learning with 3D caption generation and further improves robustness via test-time search (TTS) without updating the captioner parameters. 3D CoCa v2 builds on a frozen CLIP-based semantic prior, a spatially-aware 3D scene encoder for geometry, and a multimodal decoder jointly optimized with contrastive and captioning objectives, avoiding external detectors or handcrafted proposals. At inference, TTS produces diverse caption candidates and performs reward-guided selection using a compact scene summary. Experiments show improvements over 3D CoCa of +1.50 CIDEr@0.5IoU on ScanRefer and +1.61 CIDEr@0.5IoU on Nr3D, and +3.8 CIDEr@0.25 in zero-shot OOD evaluation on TOD3Cap. Code will be released at https://github.com/AIGeeksGroup/3DCoCav2.