PF-LRM: Modelo de Reconstrucción a Gran Escala Libre de Pose para la Predicción Conjunta de Pose y Forma
PF-LRM: Pose-Free Large Reconstruction Model for Joint Pose and Shape Prediction
November 20, 2023
Autores: Peng Wang, Hao Tan, Sai Bi, Yinghao Xu, Fujun Luan, Kalyan Sunkavalli, Wenping Wang, Zexiang Xu, Kai Zhang
cs.AI
Resumen
Proponemos un Modelo de Reconstrucción a Gran Escala Libre de Pose (PF-LRM) para reconstruir un objeto 3D a partir de unas pocas imágenes sin pose, incluso con poca superposición visual, mientras estimamos simultáneamente las poses relativas de la cámara en ~1.3 segundos en una sola GPU A100. PF-LRM es un método altamente escalable que utiliza bloques de auto-atención para intercambiar información entre tokens de objetos 3D y tokens de imágenes 2D; predecimos una nube de puntos aproximada para cada vista y luego usamos un solucionador diferenciable de Perspective-n-Point (PnP) para obtener las poses de la cámara. Cuando se entrena con una gran cantidad de datos de múltiples vistas con pose de ~1M de objetos, PF-LRM muestra una fuerte capacidad de generalización entre conjuntos de datos y supera ampliamente a los métodos de referencia en términos de precisión en la predicción de poses y calidad de reconstrucción 3D en varios conjuntos de datos de evaluación no vistos. También demostramos la aplicabilidad de nuestro modelo en tareas posteriores de texto/imagen-a-3D con inferencia rápida de avance. Nuestro sitio web del proyecto está en: https://totoro97.github.io/pf-lrm.
English
We propose a Pose-Free Large Reconstruction Model (PF-LRM) for reconstructing
a 3D object from a few unposed images even with little visual overlap, while
simultaneously estimating the relative camera poses in ~1.3 seconds on a single
A100 GPU. PF-LRM is a highly scalable method utilizing the self-attention
blocks to exchange information between 3D object tokens and 2D image tokens; we
predict a coarse point cloud for each view, and then use a differentiable
Perspective-n-Point (PnP) solver to obtain camera poses. When trained on a huge
amount of multi-view posed data of ~1M objects, PF-LRM shows strong
cross-dataset generalization ability, and outperforms baseline methods by a
large margin in terms of pose prediction accuracy and 3D reconstruction quality
on various unseen evaluation datasets. We also demonstrate our model's
applicability in downstream text/image-to-3D task with fast feed-forward
inference. Our project website is at: https://totoro97.github.io/pf-lrm .