3D CoCa v2: Aprendizes de Contraste com Busca em Tempo de Teste para Inteligência Espacial Generalizável
3D CoCa v2: Contrastive Learners with Test-Time Search for Generalizable Spatial Intelligence
January 10, 2026
Autores: Hao Tang, Ting Huang, Zeyu Zhang
cs.AI
Resumo
A inteligência espacial refere-se à capacidade de perceber, raciocinar e descrever objetos e suas relações em ambientes tridimensionais, formando uma base para a percepção incorporada e a compreensão de cenas. A descrição 3D visa descrever cenas 3D em linguagem natural; no entanto, permanece um desafio devido à esparsidade e irregularidade das nuvens de pontos e, mais criticamente, à fraca ancoragem e limitada generalização fora da distribuição (OOD) dos descritores existentes em ambientes drasticamente diferentes, incluindo cenas 3D internas e externas. Para enfrentar este desafio, propomos o 3D CoCa v2, uma estrutura de descrição 3D generalizável que unifica a aprendizagem visão-linguagem contrastiva com a geração de descrições 3D e ainda melhora a robustez através de pesquisa em tempo de teste (TTS) sem atualizar os parâmetros do descritor. O 3D CoCa v2 baseia-se num prévio semântico congelado baseado em CLIP, um codificador de cenas 3D espacialmente consciente para geometria, e um descodificador multimodal otimizado conjuntamente com objetivos contrastivos e de descrição, evitando detectores externos ou propostas artesanais. Na inferência, o TTS produz candidatos a descrições diversificados e realiza uma seleção guiada por recompensa usando um resumo compacto da cena. Experiências mostram melhorias em relação ao 3D CoCa de +1,50 CIDEr@0.5IoU no ScanRefer e +1,61 CIDEr@0.5IoU no Nr3D, e +3,8 CIDEr@0.25 na avaliação OOD de transição zero no TOD3Cap. O código será disponibilizado em https://github.com/AIGeeksGroup/3DCoCav2.
English
Spatial intelligence refers to the ability to perceive, reason about, and describe objects and their relationships within three-dimensional environments, forming a foundation for embodied perception and scene understanding. 3D captioning aims to describe 3D scenes in natural language; however, it remains challenging due to the sparsity and irregularity of point clouds and, more critically, the weak grounding and limited out-of-distribution (OOD) generalization of existing captioners across drastically different environments, including indoor and outdoor 3D scenes. To address this challenge, we propose 3D CoCa v2, a generalizable 3D captioning framework that unifies contrastive vision-language learning with 3D caption generation and further improves robustness via test-time search (TTS) without updating the captioner parameters. 3D CoCa v2 builds on a frozen CLIP-based semantic prior, a spatially-aware 3D scene encoder for geometry, and a multimodal decoder jointly optimized with contrastive and captioning objectives, avoiding external detectors or handcrafted proposals. At inference, TTS produces diverse caption candidates and performs reward-guided selection using a compact scene summary. Experiments show improvements over 3D CoCa of +1.50 CIDEr@0.5IoU on ScanRefer and +1.61 CIDEr@0.5IoU on Nr3D, and +3.8 CIDEr@0.25 in zero-shot OOD evaluation on TOD3Cap. Code will be released at https://github.com/AIGeeksGroup/3DCoCav2.