ChatPaper.aiChatPaper

PF-LRM: Modelo de Grande Reconstrução Livre de Pose para Predição Conjunta de Pose e Forma

PF-LRM: Pose-Free Large Reconstruction Model for Joint Pose and Shape Prediction

November 20, 2023
Autores: Peng Wang, Hao Tan, Sai Bi, Yinghao Xu, Fujun Luan, Kalyan Sunkavalli, Wenping Wang, Zexiang Xu, Kai Zhang
cs.AI

Resumo

Propomos um Modelo de Grande Reconstrução Livre de Pose (PF-LRM) para reconstruir um objeto 3D a partir de algumas imagens sem pose, mesmo com pouca sobreposição visual, enquanto estima simultaneamente as poses relativas da câmera em ~1,3 segundos em uma única GPU A100. O PF-LRM é um método altamente escalável que utiliza blocos de auto-atenção para trocar informações entre tokens de objetos 3D e tokens de imagens 2D; prevemos uma nuvem de pontos grosseira para cada visão e, em seguida, usamos um solucionador diferenciável de Perspective-n-Point (PnP) para obter as poses da câmera. Quando treinado em uma grande quantidade de dados multi-visão com pose de ~1M objetos, o PF-LRM mostra uma forte capacidade de generalização entre conjuntos de dados e supera os métodos de base por uma grande margem em termos de precisão na previsão de pose e qualidade de reconstrução 3D em vários conjuntos de dados de avaliação não vistos. Também demonstramos a aplicabilidade do nosso modelo em tarefas subsequentes de texto/imagem-para-3D com inferência rápida de feed-forward. O site do nosso projeto está em: https://totoro97.github.io/pf-lrm.
English
We propose a Pose-Free Large Reconstruction Model (PF-LRM) for reconstructing a 3D object from a few unposed images even with little visual overlap, while simultaneously estimating the relative camera poses in ~1.3 seconds on a single A100 GPU. PF-LRM is a highly scalable method utilizing the self-attention blocks to exchange information between 3D object tokens and 2D image tokens; we predict a coarse point cloud for each view, and then use a differentiable Perspective-n-Point (PnP) solver to obtain camera poses. When trained on a huge amount of multi-view posed data of ~1M objects, PF-LRM shows strong cross-dataset generalization ability, and outperforms baseline methods by a large margin in terms of pose prediction accuracy and 3D reconstruction quality on various unseen evaluation datasets. We also demonstrate our model's applicability in downstream text/image-to-3D task with fast feed-forward inference. Our project website is at: https://totoro97.github.io/pf-lrm .
PDF194February 8, 2026