ChatPaper.aiChatPaper

PF-LRM: Pose-Freies Großes Rekonstruktionsmodell für die gemeinsame Vorhersage von Pose und Form

PF-LRM: Pose-Free Large Reconstruction Model for Joint Pose and Shape Prediction

November 20, 2023
Autoren: Peng Wang, Hao Tan, Sai Bi, Yinghao Xu, Fujun Luan, Kalyan Sunkavalli, Wenping Wang, Zexiang Xu, Kai Zhang
cs.AI

Zusammenfassung

Wir präsentieren ein Pose-Free Large Reconstruction Model (PF-LRM) zur Rekonstruktion eines 3D-Objekts aus wenigen unpositionierten Bildern, selbst bei geringer visueller Überlappung, während gleichzeitig die relativen Kameraposen in ~1,3 Sekunden auf einer einzelnen A100-GPU geschätzt werden. PF-LRM ist eine hoch skalierbare Methode, die Self-Attention-Blöcke nutzt, um Informationen zwischen 3D-Objekt-Tokens und 2D-Bild-Tokens auszutauschen; wir generieren eine grobe Punktwolke für jede Ansicht und verwenden dann einen differenzierbaren Perspective-n-Point (PnP)-Solver, um die Kameraposen zu ermitteln. Wenn das Modell mit einer großen Menge an Multi-View-Daten von ~1M Objekten trainiert wird, zeigt PF-LRM eine starke Fähigkeit zur generalisierenden Anwendung auf verschiedene Datensätze und übertrifft Baseline-Methoden deutlich in Bezug auf die Genauigkeit der Posenschätzung und die Qualität der 3D-Rekonstruktion auf verschiedenen unbekannten Evaluierungsdatensätzen. Wir demonstrieren auch die Anwendbarkeit unseres Modells in nachgelagerten Text-/Bild-zu-3D-Aufgaben mit schneller Feedforward-Inferenz. Unsere Projektwebsite ist unter https://totoro97.github.io/pf-lrm zu finden.
English
We propose a Pose-Free Large Reconstruction Model (PF-LRM) for reconstructing a 3D object from a few unposed images even with little visual overlap, while simultaneously estimating the relative camera poses in ~1.3 seconds on a single A100 GPU. PF-LRM is a highly scalable method utilizing the self-attention blocks to exchange information between 3D object tokens and 2D image tokens; we predict a coarse point cloud for each view, and then use a differentiable Perspective-n-Point (PnP) solver to obtain camera poses. When trained on a huge amount of multi-view posed data of ~1M objects, PF-LRM shows strong cross-dataset generalization ability, and outperforms baseline methods by a large margin in terms of pose prediction accuracy and 3D reconstruction quality on various unseen evaluation datasets. We also demonstrate our model's applicability in downstream text/image-to-3D task with fast feed-forward inference. Our project website is at: https://totoro97.github.io/pf-lrm .
PDF204December 15, 2024