ChatPaper.aiChatPaper

3D CoCa v2: 일반화 가능한 공간 지능을 위한 테스트 타임 탐색 기반 대조 학습기

3D CoCa v2: Contrastive Learners with Test-Time Search for Generalizable Spatial Intelligence

January 10, 2026
저자: Hao Tang, Ting Huang, Zeyu Zhang
cs.AI

초록

공간 지능은 3차원 환경 내에서 객체와 그 상호관계를 인지, 추론, 설명하는 능력을 의미하며, 구체화된 지각 및 장면 이해의 기초를 형성합니다. 3D 캡셔닝은 3D 장면을 자연어로 기술하는 것을 목표로 하지만, 점군의 희소성과 불규칙성뿐만 아니라 더 근본적으로는 기존 캡셔너의 약한 접지와 실내외 3D 장면을 포함한 극히 다른 환경 간 제한적인 분포 외 일반화 성능으로 인해 여전히 과제로 남아 있습니다. 이러한 문제를 해결하기 위해 우리는 대조적 시각-언어 학습과 3D 캡션 생성을 통합하고, 캡셔너 매개변수 업데이트 없이 테스트 시점 탐색을 통해 강건성을 더욱 향상시키는 일반화 가능한 3D 캡셔닝 프레임워크인 3D CoCa v2를 제안합니다. 3D CoCa v2는 고정된 CLIP 기반 의미론적 사전 지식, 기하학적 정보를 위한 공간 인식 3D 장면 인코더, 그리고 대조 및 캡셔닝 목표를 함께 최적화하는 다중 모드 디코더를 기반으로 하여 외부 검출기나 수작업 제안을 필요로 하지 않습니다. 추론 단계에서 테스트 시점 탐색은 다양한 캡션 후보를 생성하고 간결한 장면 요약을 이용한 보안도 기반 선택을 수행합니다. 실험 결과, ScanRefer에서 CIDEr@0.5IoU 기준 3D CoCa 대비 +1.50, Nr3D에서 +1.61의 성능 향상을 보였으며, TOD3Cap의 제로샷 분포 외 평가에서 CIDEr@0.25 기준 +3.8의 향상을 나타냈습니다. 코드는 https://github.com/AIGeeksGroup/3DCoCav2에서 공개될 예정입니다.
English
Spatial intelligence refers to the ability to perceive, reason about, and describe objects and their relationships within three-dimensional environments, forming a foundation for embodied perception and scene understanding. 3D captioning aims to describe 3D scenes in natural language; however, it remains challenging due to the sparsity and irregularity of point clouds and, more critically, the weak grounding and limited out-of-distribution (OOD) generalization of existing captioners across drastically different environments, including indoor and outdoor 3D scenes. To address this challenge, we propose 3D CoCa v2, a generalizable 3D captioning framework that unifies contrastive vision-language learning with 3D caption generation and further improves robustness via test-time search (TTS) without updating the captioner parameters. 3D CoCa v2 builds on a frozen CLIP-based semantic prior, a spatially-aware 3D scene encoder for geometry, and a multimodal decoder jointly optimized with contrastive and captioning objectives, avoiding external detectors or handcrafted proposals. At inference, TTS produces diverse caption candidates and performs reward-guided selection using a compact scene summary. Experiments show improvements over 3D CoCa of +1.50 CIDEr@0.5IoU on ScanRefer and +1.61 CIDEr@0.5IoU on Nr3D, and +3.8 CIDEr@0.25 in zero-shot OOD evaluation on TOD3Cap. Code will be released at https://github.com/AIGeeksGroup/3DCoCav2.
PDF13January 31, 2026