3D CoCa : Les modèles de contraste sont des générateurs de descriptions 3D
3D CoCa: Contrastive Learners are 3D Captioners
April 13, 2025
Auteurs: Ting Huang, Zeyu Zhang, Yemin Wang, Hao Tang
cs.AI
Résumé
La légende 3D, qui vise à décrire le contenu de scènes 3D en langage naturel, reste un défi majeur en raison de la sparsité inhérente des nuages de points et de l'alignement intermodal faible des méthodes existantes. Pour relever ces défis, nous proposons 3D CoCa, un nouveau cadre unifié qui combine de manière fluide l'apprentissage contrastif vision-langage avec la génération de légendes 3D dans une architecture unique. Notre approche exploite un modèle CLIP vision-langage figé pour fournir des préconnaissances sémantiques riches, un encodeur de scène 3D spatialement conscient pour capturer le contexte géométrique, et un décodeur multimodal pour générer des légendes descriptives. Contrairement aux méthodes en deux étapes précédentes qui reposent sur des propositions d'objets explicites, 3D CoCa optimise conjointement les objectifs contrastifs et de légendage dans un espace de caractéristiques partagé, éliminant ainsi le besoin de détecteurs externes ou de propositions artisanales. Ce paradigme d'entraînement conjoint permet un raisonnement spatial plus robuste et un ancrage sémantique plus riche en alignant les représentations 3D et textuelles. Des expériences approfondies sur les benchmarks ScanRefer et Nr3D montrent que 3D CoCa surpasse significativement les méthodes actuelles de pointe avec des gains de 10,2 % et 5,76 % en CIDEr à 0,5IoU, respectivement. Le code sera disponible à l'adresse https://github.com/AIGeeksGroup/3DCoCa.
English
3D captioning, which aims to describe the content of 3D scenes in natural
language, remains highly challenging due to the inherent sparsity of point
clouds and weak cross-modal alignment in existing methods. To address these
challenges, we propose 3D CoCa, a novel unified framework that seamlessly
combines contrastive vision-language learning with 3D caption generation in a
single architecture. Our approach leverages a frozen CLIP vision-language
backbone to provide rich semantic priors, a spatially-aware 3D scene encoder to
capture geometric context, and a multi-modal decoder to generate descriptive
captions. Unlike prior two-stage methods that rely on explicit object
proposals, 3D CoCa jointly optimizes contrastive and captioning objectives in a
shared feature space, eliminating the need for external detectors or
handcrafted proposals. This joint training paradigm yields stronger spatial
reasoning and richer semantic grounding by aligning 3D and textual
representations. Extensive experiments on the ScanRefer and Nr3D benchmarks
demonstrate that 3D CoCa significantly outperforms current state-of-the-arts by
10.2% and 5.76% in CIDEr at 0.5IoU, respectively. Code will be available at
https://github.com/AIGeeksGroup/3DCoCa.Summary
AI-Generated Summary