ChatPaper.aiChatPaper

PF-LRM : Modèle de Reconstruction à Grande Échelle Sans Pose pour la Prédiction Conjointe de la Pose et de la Forme

PF-LRM: Pose-Free Large Reconstruction Model for Joint Pose and Shape Prediction

November 20, 2023
Auteurs: Peng Wang, Hao Tan, Sai Bi, Yinghao Xu, Fujun Luan, Kalyan Sunkavalli, Wenping Wang, Zexiang Xu, Kai Zhang
cs.AI

Résumé

Nous proposons un modèle de reconstruction à grande échelle sans pose (PF-LRM) pour reconstruire un objet 3D à partir de quelques images non positionnées, même avec peu de chevauchement visuel, tout en estimant simultanément les poses relatives de la caméra en ~1,3 seconde sur une seule GPU A100. PF-LRM est une méthode hautement scalable qui utilise des blocs d'auto-attention pour échanger des informations entre des tokens d'objet 3D et des tokens d'image 2D ; nous prédisons un nuage de points grossier pour chaque vue, puis utilisons un solveur Perspective-n-Point (PnP) différentiable pour obtenir les poses de la caméra. Lorsqu'il est entraîné sur une grande quantité de données multi-vues posées d'environ 1 million d'objets, PF-LRM montre une forte capacité de généralisation inter-dataset, et surpasse les méthodes de référence avec une large marge en termes de précision de prédiction de pose et de qualité de reconstruction 3D sur divers ensembles de données d'évaluation inédits. Nous démontrons également l'applicabilité de notre modèle dans des tâches en aval de texte/image-à-3D avec une inférence rapide en feed-forward. Notre site web de projet est accessible à l'adresse : https://totoro97.github.io/pf-lrm.
English
We propose a Pose-Free Large Reconstruction Model (PF-LRM) for reconstructing a 3D object from a few unposed images even with little visual overlap, while simultaneously estimating the relative camera poses in ~1.3 seconds on a single A100 GPU. PF-LRM is a highly scalable method utilizing the self-attention blocks to exchange information between 3D object tokens and 2D image tokens; we predict a coarse point cloud for each view, and then use a differentiable Perspective-n-Point (PnP) solver to obtain camera poses. When trained on a huge amount of multi-view posed data of ~1M objects, PF-LRM shows strong cross-dataset generalization ability, and outperforms baseline methods by a large margin in terms of pose prediction accuracy and 3D reconstruction quality on various unseen evaluation datasets. We also demonstrate our model's applicability in downstream text/image-to-3D task with fast feed-forward inference. Our project website is at: https://totoro97.github.io/pf-lrm .
PDF204December 15, 2024