π^3: スケーラブルな順列同変視覚幾何学習
π^3: Scalable Permutation-Equivariant Visual Geometry Learning
July 17, 2025
著者: Yifan Wang, Jianjun Zhou, Haoyi Zhu, Wenzheng Chang, Yang Zhou, Zizun Li, Junyi Chen, Jiangmiao Pang, Chunhua Shen, Tong He
cs.AI
要旨
pi^3を紹介します。これは、従来の固定参照視点への依存を断ち切る、視覚的ジオメトリ再構築の新たなアプローチを提供するフィードフォワードニューラルネットワークです。従来の手法では、特定の視点を基準に再構築を行うことが多く、この帰納的バイアスは参照が最適でない場合に不安定性や失敗を引き起こす可能性がありました。対照的に、pi^3は完全な順序等変性アーキテクチャを採用し、参照フレームなしでアフィン不変なカメラポーズとスケール不変な局所点マップを予測します。この設計により、モデルは入力順序に対して本質的にロバストであり、高いスケーラビリティを実現しています。これらの利点により、カメラポーズ推定、単眼/ビデオ深度推定、密な点マップ再構築など、幅広いタスクにおいて、シンプルでバイアスのないアプローチが最先端の性能を達成しています。コードとモデルは公開されています。
English
We introduce pi^3, a feed-forward neural network that offers a novel
approach to visual geometry reconstruction, breaking the reliance on a
conventional fixed reference view. Previous methods often anchor their
reconstructions to a designated viewpoint, an inductive bias that can lead to
instability and failures if the reference is suboptimal. In contrast, pi^3
employs a fully permutation-equivariant architecture to predict
affine-invariant camera poses and scale-invariant local point maps without any
reference frames. This design makes our model inherently robust to input
ordering and highly scalable. These advantages enable our simple and bias-free
approach to achieve state-of-the-art performance on a wide range of tasks,
including camera pose estimation, monocular/video depth estimation, and dense
point map reconstruction. Code and models are publicly available.