ChatPaper.aiChatPaper

UniPre3D : Pré-entraînement unifié de modèles de nuages de points 3D avec projection gaussienne intermodale

UniPre3D: Unified Pre-training of 3D Point Cloud Models with Cross-Modal Gaussian Splatting

June 11, 2025
Auteurs: Ziyi Wang, Yanran Zhang, Jie Zhou, Jiwen Lu
cs.AI

Résumé

La diversité d'échelle des données de nuages de points pose des défis majeurs dans le développement de techniques unifiées d'apprentissage de représentation pour la vision 3D. Actuellement, il existe peu de modèles 3D unifiés, et aucune méthode de pré-entraînement existante n'est également efficace pour les nuages de points à l'échelle des objets et des scènes. Dans cet article, nous présentons UniPre3D, la première méthode de pré-entraînement unifiée qui peut être appliquée de manière transparente à des nuages de points de toute échelle et à des modèles 3D de toute architecture. Notre approche prédit des primitives gaussiennes comme tâche de pré-entraînement et utilise un lissage gaussien différentiable pour rendre des images, permettant une supervision précise au niveau des pixels et une optimisation de bout en bout. Pour réguler davantage la complexité de la tâche de pré-entraînement et orienter l'attention du modèle vers les structures géométriques, nous intégrons des caractéristiques 2D issues de modèles d'images pré-entraînés afin d'incorporer des connaissances bien établies sur les textures. Nous validons l'efficacité universelle de notre méthode proposée à travers des expériences approfondies sur une variété de tâches à l'échelle des objets et des scènes, en utilisant divers modèles de nuages de points comme architectures de base. Le code est disponible à l'adresse suivante : https://github.com/wangzy22/UniPre3D.
English
The scale diversity of point cloud data presents significant challenges in developing unified representation learning techniques for 3D vision. Currently, there are few unified 3D models, and no existing pre-training method is equally effective for both object- and scene-level point clouds. In this paper, we introduce UniPre3D, the first unified pre-training method that can be seamlessly applied to point clouds of any scale and 3D models of any architecture. Our approach predicts Gaussian primitives as the pre-training task and employs differentiable Gaussian splatting to render images, enabling precise pixel-level supervision and end-to-end optimization. To further regulate the complexity of the pre-training task and direct the model's focus toward geometric structures, we integrate 2D features from pre-trained image models to incorporate well-established texture knowledge. We validate the universal effectiveness of our proposed method through extensive experiments across a variety of object- and scene-level tasks, using diverse point cloud models as backbones. Code is available at https://github.com/wangzy22/UniPre3D.
PDF53June 13, 2025