ChatPaper.aiChatPaper

3D CoCa v2: Контрастные обучающиеся системы с поиском в момент тестирования для обобщаемого пространственного интеллекта

3D CoCa v2: Contrastive Learners with Test-Time Search for Generalizable Spatial Intelligence

January 10, 2026
Авторы: Hao Tang, Ting Huang, Zeyu Zhang
cs.AI

Аннотация

Пространственный интеллект — это способность воспринимать, анализировать и описывать объекты и их взаимосвязи в трёхмерных средах, что формирует основу для воплощённого восприятия и понимания сцен. Задача трёхмерного описания (3D-каптионинга) заключается в генерации описаний 3D-сцен на естественном языке; однако она остаётся сложной из-за разреженности и нерегулярности облаков точек и, что более важно, из-за слабой заземлённости и ограниченной обобщающей способности (OOD) существующих моделей для описания в кардинально разных средах, включая внутренние и внешние 3D-сцены. Для решения этой проблемы мы предлагаем 3D CoCa v2 — обобщающую архитектуру для 3D-описания, которая объединяет контрастивное обучение «визуальный язык» с генерацией описаний 3D-сцен и дополнительно повышает устойчивость с помощью поиска в момент тестирования (TTS) без обновления параметров модели описания. 3D CoCa v2 построена на замороженной семантической априорной модели на основе CLIP, пространственно-осознающем 3D-энкодере сцены для геометрии и мультимодальном декодере, совместно оптимизированном с контрастивными и описательными целями, без использования внешних детекторов или ручных предложений. На этапе вывода TTS генерирует разнообразные варианты описаний и выполняет отбор с направляющей наградой, используя компактное резюме сцены. Эксперименты показывают улучшение по сравнению с 3D CoCa на +1,50 CIDEr@0,5IoU на ScanRefer и +1,61 CIDEr@0,5IoU на Nr3D, а также на +3,8 CIDEr@0,25 при zero-shot OOD-оценке на TOD3Cap. Код будет доступен по адресу https://github.com/AIGeeksGroup/3DCoCav2.
English
Spatial intelligence refers to the ability to perceive, reason about, and describe objects and their relationships within three-dimensional environments, forming a foundation for embodied perception and scene understanding. 3D captioning aims to describe 3D scenes in natural language; however, it remains challenging due to the sparsity and irregularity of point clouds and, more critically, the weak grounding and limited out-of-distribution (OOD) generalization of existing captioners across drastically different environments, including indoor and outdoor 3D scenes. To address this challenge, we propose 3D CoCa v2, a generalizable 3D captioning framework that unifies contrastive vision-language learning with 3D caption generation and further improves robustness via test-time search (TTS) without updating the captioner parameters. 3D CoCa v2 builds on a frozen CLIP-based semantic prior, a spatially-aware 3D scene encoder for geometry, and a multimodal decoder jointly optimized with contrastive and captioning objectives, avoiding external detectors or handcrafted proposals. At inference, TTS produces diverse caption candidates and performs reward-guided selection using a compact scene summary. Experiments show improvements over 3D CoCa of +1.50 CIDEr@0.5IoU on ScanRefer and +1.61 CIDEr@0.5IoU on Nr3D, and +3.8 CIDEr@0.25 in zero-shot OOD evaluation on TOD3Cap. Code will be released at https://github.com/AIGeeksGroup/3DCoCav2.
PDF13January 31, 2026