PF-LRM: Modello di Ricostruzione su Grande Scala Senza Posa per la Predizione Congiunta di Posa e Forma
PF-LRM: Pose-Free Large Reconstruction Model for Joint Pose and Shape Prediction
November 20, 2023
Autori: Peng Wang, Hao Tan, Sai Bi, Yinghao Xu, Fujun Luan, Kalyan Sunkavalli, Wenping Wang, Zexiang Xu, Kai Zhang
cs.AI
Abstract
Proponiamo un modello di ricostruzione su larga scala senza pose (PF-LRM) per ricostruire un oggetto 3D a partire da poche immagini non posizionate, anche con una sovrapposizione visiva minima, stimando simultaneamente le pose relative della fotocamera in circa 1,3 secondi su una singola GPU A100. PF-LRM è un metodo altamente scalabile che utilizza blocchi di self-attention per scambiare informazioni tra token 3D dell'oggetto e token 2D delle immagini; prevediamo una nuvola di punti approssimativa per ciascuna vista e successivamente utilizziamo un risolutore differenziabile Perspective-n-Point (PnP) per ottenere le pose della fotocamera. Addestrato su una vasta quantità di dati multi-vista con pose relativi a circa 1 milione di oggetti, PF-LRM mostra una forte capacità di generalizzazione cross-dataset e supera i metodi di base con un ampio margine in termini di accuratezza nella previsione delle pose e qualità della ricostruzione 3D su vari dataset di valutazione non visti. Dimostriamo inoltre l'applicabilità del nostro modello in task downstream di testo/immagine-a-3D con inferenza feed-forward veloce. Il sito web del progetto è disponibile all'indirizzo: https://totoro97.github.io/pf-lrm.
English
We propose a Pose-Free Large Reconstruction Model (PF-LRM) for reconstructing
a 3D object from a few unposed images even with little visual overlap, while
simultaneously estimating the relative camera poses in ~1.3 seconds on a single
A100 GPU. PF-LRM is a highly scalable method utilizing the self-attention
blocks to exchange information between 3D object tokens and 2D image tokens; we
predict a coarse point cloud for each view, and then use a differentiable
Perspective-n-Point (PnP) solver to obtain camera poses. When trained on a huge
amount of multi-view posed data of ~1M objects, PF-LRM shows strong
cross-dataset generalization ability, and outperforms baseline methods by a
large margin in terms of pose prediction accuracy and 3D reconstruction quality
on various unseen evaluation datasets. We also demonstrate our model's
applicability in downstream text/image-to-3D task with fast feed-forward
inference. Our project website is at: https://totoro97.github.io/pf-lrm .