ChatPaper.aiChatPaper

3D CoCa: 대조 학습 모델이 3D 캡션 생성기로

3D CoCa: Contrastive Learners are 3D Captioners

April 13, 2025
저자: Ting Huang, Zeyu Zhang, Yemin Wang, Hao Tang
cs.AI

초록

3D 캡셔닝은 3D 장면의 내용을 자연어로 설명하는 것을 목표로 하지만, 포인트 클라우드의 고유한 희소성과 기존 방법들의 약한 크로스 모달 정렬로 인해 여전히 매우 어려운 과제로 남아 있습니다. 이러한 문제를 해결하기 위해, 우리는 대조적 시각-언어 학습과 3D 캡셔닝 생성을 단일 아키텍처에서 원활하게 결합한 새로운 통합 프레임워크인 3D CoCa를 제안합니다. 우리의 접근 방식은 풍부한 시맨틱 프라이어를 제공하기 위해 고정된 CLIP 시각-언어 백본을 활용하고, 기하학적 컨텍스트를 포착하기 위해 공간 인식 3D 장면 인코더를 사용하며, 설명적인 캡션을 생성하기 위해 다중 모달 디코더를 사용합니다. 명시적인 객체 제안에 의존하는 기존의 두 단계 방법과 달리, 3D CoCa는 대조적 목표와 캡셔닝 목표를 공유된 특징 공간에서 공동으로 최적화하여 외부 탐지기나 수작업 제안의 필요성을 없앱니다. 이 공동 훈련 패러다임은 3D와 텍스트 표현을 정렬함으로써 더 강력한 공간 추론과 더 풍부한 시맨틱 그라운딩을 제공합니다. ScanRefer 및 Nr3D 벤치마크에서의 광범위한 실험을 통해 3D CoCa가 0.5IoU에서 CIDEr 점수로 각각 10.2%와 5.76%의 현존 최고 성능을 크게 능가함을 입증했습니다. 코드는 https://github.com/AIGeeksGroup/3DCoCa에서 제공될 예정입니다.
English
3D captioning, which aims to describe the content of 3D scenes in natural language, remains highly challenging due to the inherent sparsity of point clouds and weak cross-modal alignment in existing methods. To address these challenges, we propose 3D CoCa, a novel unified framework that seamlessly combines contrastive vision-language learning with 3D caption generation in a single architecture. Our approach leverages a frozen CLIP vision-language backbone to provide rich semantic priors, a spatially-aware 3D scene encoder to capture geometric context, and a multi-modal decoder to generate descriptive captions. Unlike prior two-stage methods that rely on explicit object proposals, 3D CoCa jointly optimizes contrastive and captioning objectives in a shared feature space, eliminating the need for external detectors or handcrafted proposals. This joint training paradigm yields stronger spatial reasoning and richer semantic grounding by aligning 3D and textual representations. Extensive experiments on the ScanRefer and Nr3D benchmarks demonstrate that 3D CoCa significantly outperforms current state-of-the-arts by 10.2% and 5.76% in CIDEr at 0.5IoU, respectively. Code will be available at https://github.com/AIGeeksGroup/3DCoCa.

Summary

AI-Generated Summary

PDF52April 15, 2025