ChatPaper.aiChatPaper

PF-LRM: Pose-Vrij Groot Reconstructiemodel voor Gezamenlijke Pose- en Vormvoorspelling

PF-LRM: Pose-Free Large Reconstruction Model for Joint Pose and Shape Prediction

November 20, 2023
Auteurs: Peng Wang, Hao Tan, Sai Bi, Yinghao Xu, Fujun Luan, Kalyan Sunkavalli, Wenping Wang, Zexiang Xu, Kai Zhang
cs.AI

Samenvatting

We stellen een Pose-Free Large Reconstruction Model (PF-LRM) voor voor het reconstrueren van een 3D-object uit enkele ongepositioneerde afbeeldingen, zelfs met weinig visuele overlap, terwijl tegelijkertijd de relatieve cameraposities worden geschat in ~1,3 seconden op een enkele A100 GPU. PF-LRM is een zeer schaalbare methode die gebruikmaakt van self-attention-blokken om informatie uit te wisselen tussen 3D-objecttokens en 2D-afbeeldingstokens; we voorspellen een grof puntenwolk voor elk beeld en gebruiken vervolgens een differentieerbare Perspective-n-Point (PnP)-oplosser om de cameraposities te verkrijgen. Wanneer getraind op een enorme hoeveelheid multi-view gepositioneerde data van ~1M objecten, toont PF-LRM een sterke generalisatiecapaciteit over verschillende datasets en overtreft het baseline-methoden met een grote marge wat betreft nauwkeurigheid van positievoorspelling en kwaliteit van 3D-reconstructie op diverse onbekende evaluatiedatasets. We demonstreren ook de toepasbaarheid van ons model in downstream tekst/afbeelding-naar-3D-taken met snelle feed-forward-inferentie. Onze projectwebsite is te vinden op: https://totoro97.github.io/pf-lrm.
English
We propose a Pose-Free Large Reconstruction Model (PF-LRM) for reconstructing a 3D object from a few unposed images even with little visual overlap, while simultaneously estimating the relative camera poses in ~1.3 seconds on a single A100 GPU. PF-LRM is a highly scalable method utilizing the self-attention blocks to exchange information between 3D object tokens and 2D image tokens; we predict a coarse point cloud for each view, and then use a differentiable Perspective-n-Point (PnP) solver to obtain camera poses. When trained on a huge amount of multi-view posed data of ~1M objects, PF-LRM shows strong cross-dataset generalization ability, and outperforms baseline methods by a large margin in terms of pose prediction accuracy and 3D reconstruction quality on various unseen evaluation datasets. We also demonstrate our model's applicability in downstream text/image-to-3D task with fast feed-forward inference. Our project website is at: https://totoro97.github.io/pf-lrm .
PDF194February 8, 2026