ChatPaper.aiChatPaper

3D CoCa v2: Aprendices Contrastivos con Búsqueda en Tiempo de Prueba para Inteligencia Espacial Generalizable

3D CoCa v2: Contrastive Learners with Test-Time Search for Generalizable Spatial Intelligence

January 10, 2026
Autores: Hao Tang, Ting Huang, Zeyu Zhang
cs.AI

Resumen

La inteligencia espacial se refiere a la capacidad de percibir, razonar y describir objetos y sus relaciones en entornos tridimensionales, formando una base para la percepción corporeizada y la comprensión de escenas. La generación de descripciones 3D tiene como objetivo describir escenas 3D en lenguaje natural; sin embargo, sigue siendo un desafío debido a la dispersión e irregularidad de las nubes de puntos y, más críticamente, a la débil anclaje y la limitada generalización fuera de distribución (OOD) de los descriptores existentes en entornos drásticamente diferentes, incluyendo escenas 3D interiores y exteriores. Para abordar este desafío, proponemos 3D CoCa v2, un marco de descripción 3D generalizable que unifica el aprendizaje contrastivo visión-lenguaje con la generación de descripciones 3D y mejora aún más la robustez mediante búsqueda en tiempo de prueba (TTS) sin actualizar los parámetros del descriptor. 3D CoCa v2 se construye sobre una base semántica preexistente basada en CLIP congelado, un codificador de escenas 3D espacialmente consciente para la geometría, y un decodificador multimodal optimizado conjuntamente con objetivos contrastivos y de descripción, evitando detectores externos o propuestas artesanales. En la inferencia, TTS produce diversos candidatos de descripción y realiza una selección guiada por recompensas utilizando un resumen compacto de la escena. Los experimentos muestran mejoras respecto a 3D CoCa de +1.50 CIDEr@0.5IoU en ScanRefer y +1.61 CIDEr@0.5IoU en Nr3D, y +3.8 CIDEr@0.25 en evaluación OOD de cero disparos en TOD3Cap. El código se liberará en https://github.com/AIGeeksGroup/3DCoCav2.
English
Spatial intelligence refers to the ability to perceive, reason about, and describe objects and their relationships within three-dimensional environments, forming a foundation for embodied perception and scene understanding. 3D captioning aims to describe 3D scenes in natural language; however, it remains challenging due to the sparsity and irregularity of point clouds and, more critically, the weak grounding and limited out-of-distribution (OOD) generalization of existing captioners across drastically different environments, including indoor and outdoor 3D scenes. To address this challenge, we propose 3D CoCa v2, a generalizable 3D captioning framework that unifies contrastive vision-language learning with 3D caption generation and further improves robustness via test-time search (TTS) without updating the captioner parameters. 3D CoCa v2 builds on a frozen CLIP-based semantic prior, a spatially-aware 3D scene encoder for geometry, and a multimodal decoder jointly optimized with contrastive and captioning objectives, avoiding external detectors or handcrafted proposals. At inference, TTS produces diverse caption candidates and performs reward-guided selection using a compact scene summary. Experiments show improvements over 3D CoCa of +1.50 CIDEr@0.5IoU on ScanRefer and +1.61 CIDEr@0.5IoU on Nr3D, and +3.8 CIDEr@0.25 in zero-shot OOD evaluation on TOD3Cap. Code will be released at https://github.com/AIGeeksGroup/3DCoCav2.
PDF13January 31, 2026