ChatPaper.aiChatPaper

3D CoCa v2: Kontrastive Lernverfahren mit Testzeit-Suche für generalisierbare räumliche Intelligenz

3D CoCa v2: Contrastive Learners with Test-Time Search for Generalizable Spatial Intelligence

January 10, 2026
papers.authors: Hao Tang, Ting Huang, Zeyu Zhang
cs.AI

papers.abstract

Räumliche Intelligenz bezeichnet die Fähigkeit, Objekte und ihre Beziehungen in dreidimensionalen Umgebungen wahrzunehmen, zu begreifen und zu beschreiben, was eine Grundlage für verkörperte Wahrnehmung und Szenenverständnis bildet. 3D-Bildbeschreibung zielt darauf ab, 3D-Szenen in natürlicher Sprache zu beschreiben; dies bleibt jedoch aufgrund der Sparsamkeit und Unregelmäßigkeit von Punktwolken und, noch entscheidender, der schwachen Verankerung und begrenzten Out-of-Distribution (OOD)-Generalisierung bestehender Beschreibungssysteme über stark unterschiedliche Umgebungen hinweg, einschließlich Innen- und Außen-3D-Szenen, eine Herausforderung. Um diese Herausforderung zu bewältigen, schlagen wir 3D CoCa v2 vor, ein generalisierbares 3D-Beschreibungsframework, das kontrastives Vision-Language-Lernen mit 3D-Beschreibungsgenerierung vereint und die Robustheit durch Test-Time-Search (TTS) weiter verbessert, ohne die Parameter des Beschreibungssystems zu aktualisieren. 3D CoCa v2 baut auf einer eingefrorenen CLIP-basierten semantischen Priorität, einem raumbewussten 3D-Szenenencoder für Geometrie und einem multimodalen Decoder auf, der gemeinsam mit kontrastiven und Beschreibungszielen optimiert wird, ohne externe Detektoren oder handgefertigte Vorschläge zu benötigen. Bei der Inferenz erzeugt TTS diverse Beschreibungskandidaten und führt eine belohnungsgesteuerte Auswahl unter Verwendung einer kompakten Szenenzusammenfassung durch. Experimente zeigen Verbesserungen gegenüber 3D CoCa von +1,50 CIDEr@0,5IoU auf ScanRefer und +1,61 CIDEr@0,5IoU auf Nr3D sowie +3,8 CIDEr@0,25 in der Zero-Shot-OOD-Evaluierung auf TOD3Cap. Der Code wird unter https://github.com/AIGeeksGroup/3DCoCav2 veröffentlicht.
English
Spatial intelligence refers to the ability to perceive, reason about, and describe objects and their relationships within three-dimensional environments, forming a foundation for embodied perception and scene understanding. 3D captioning aims to describe 3D scenes in natural language; however, it remains challenging due to the sparsity and irregularity of point clouds and, more critically, the weak grounding and limited out-of-distribution (OOD) generalization of existing captioners across drastically different environments, including indoor and outdoor 3D scenes. To address this challenge, we propose 3D CoCa v2, a generalizable 3D captioning framework that unifies contrastive vision-language learning with 3D caption generation and further improves robustness via test-time search (TTS) without updating the captioner parameters. 3D CoCa v2 builds on a frozen CLIP-based semantic prior, a spatially-aware 3D scene encoder for geometry, and a multimodal decoder jointly optimized with contrastive and captioning objectives, avoiding external detectors or handcrafted proposals. At inference, TTS produces diverse caption candidates and performs reward-guided selection using a compact scene summary. Experiments show improvements over 3D CoCa of +1.50 CIDEr@0.5IoU on ScanRefer and +1.61 CIDEr@0.5IoU on Nr3D, and +3.8 CIDEr@0.25 in zero-shot OOD evaluation on TOD3Cap. Code will be released at https://github.com/AIGeeksGroup/3DCoCav2.
PDF13January 31, 2026