PF-LRM: Modello di Ricostruzione su Grande Scala Senza Posa per la Predizione Congiunta di Posa e Forma

Abstract

Proponiamo un modello di ricostruzione su larga scala senza pose (PF-LRM) per ricostruire un oggetto 3D a partire da poche immagini non posizionate, anche con una sovrapposizione visiva minima, stimando simultaneamente le pose relative della fotocamera in circa 1,3 secondi su una singola GPU A100. PF-LRM è un metodo altamente scalabile che utilizza blocchi di self-attention per scambiare informazioni tra token 3D dell'oggetto e token 2D delle immagini; prevediamo una nuvola di punti approssimativa per ciascuna vista e successivamente utilizziamo un risolutore differenziabile Perspective-n-Point (PnP) per ottenere le pose della fotocamera. Addestrato su una vasta quantità di dati multi-vista con pose relativi a circa 1 milione di oggetti, PF-LRM mostra una forte capacità di generalizzazione cross-dataset e supera i metodi di base con un ampio margine in termini di accuratezza nella previsione delle pose e qualità della ricostruzione 3D su vari dataset di valutazione non visti. Dimostriamo inoltre l'applicabilità del nostro modello in task downstream di testo/immagine-a-3D con inferenza feed-forward veloce. Il sito web del progetto è disponibile all'indirizzo: https://totoro97.github.io/pf-lrm.

English

We propose a Pose-Free Large Reconstruction Model (PF-LRM) for reconstructing a 3D object from a few unposed images even with little visual overlap, while simultaneously estimating the relative camera poses in ~1.3 seconds on a single A100 GPU. PF-LRM is a highly scalable method utilizing the self-attention blocks to exchange information between 3D object tokens and 2D image tokens; we predict a coarse point cloud for each view, and then use a differentiable Perspective-n-Point (PnP) solver to obtain camera poses. When trained on a huge amount of multi-view posed data of ~1M objects, PF-LRM shows strong cross-dataset generalization ability, and outperforms baseline methods by a large margin in terms of pose prediction accuracy and 3D reconstruction quality on various unseen evaluation datasets. We also demonstrate our model's applicability in downstream text/image-to-3D task with fast feed-forward inference. Our project website is at: https://totoro97.github.io/pf-lrm .

PF-LRM: Modello di Ricostruzione su Grande Scala Senza Posa per la Predizione Congiunta di Posa e Forma

PF-LRM: Pose-Free Large Reconstruction Model for Joint Pose and Shape Prediction

Abstract

Support