ChatPaper.aiChatPaper

PF-LRM: Модель масштабной реконструкции без данных о позе для совместного предсказания позы и формы

PF-LRM: Pose-Free Large Reconstruction Model for Joint Pose and Shape Prediction

November 20, 2023
Авторы: Peng Wang, Hao Tan, Sai Bi, Yinghao Xu, Fujun Luan, Kalyan Sunkavalli, Wenping Wang, Zexiang Xu, Kai Zhang
cs.AI

Аннотация

Мы предлагаем Pose-Free Large Reconstruction Model (PF-LRM) для реконструкции 3D-объекта по нескольким изображениям без известных поз камер, даже при минимальном визуальном перекрытии, одновременно оценивая относительные позы камер примерно за 1,3 секунды на одном GPU A100. PF-LRM — это высокомасштабируемый метод, использующий блоки self-attention для обмена информацией между токенами 3D-объектов и 2D-изображений; мы предсказываем грубое облако точек для каждого вида, а затем применяем дифференцируемый решатель Perspective-n-Point (PnP) для получения поз камер. При обучении на огромном объеме данных с известными позами камер для ~1 млн объектов PF-LRM демонстрирует сильную способность к кросс-датасетной генерализации и значительно превосходит базовые методы по точности предсказания поз и качеству 3D-реконструкции на различных невидимых оценочных наборах данных. Мы также показываем применимость нашей модели в задачах текстового/изображения-в-3D с быстрым прямым выводом. Наш проект доступен по адресу: https://totoro97.github.io/pf-lrm.
English
We propose a Pose-Free Large Reconstruction Model (PF-LRM) for reconstructing a 3D object from a few unposed images even with little visual overlap, while simultaneously estimating the relative camera poses in ~1.3 seconds on a single A100 GPU. PF-LRM is a highly scalable method utilizing the self-attention blocks to exchange information between 3D object tokens and 2D image tokens; we predict a coarse point cloud for each view, and then use a differentiable Perspective-n-Point (PnP) solver to obtain camera poses. When trained on a huge amount of multi-view posed data of ~1M objects, PF-LRM shows strong cross-dataset generalization ability, and outperforms baseline methods by a large margin in terms of pose prediction accuracy and 3D reconstruction quality on various unseen evaluation datasets. We also demonstrate our model's applicability in downstream text/image-to-3D task with fast feed-forward inference. Our project website is at: https://totoro97.github.io/pf-lrm .
PDF204December 15, 2024