ChatPaper.aiChatPaper

π^3 : Apprentissage évolutif de la géométrie visuelle équivariante par permutation

π^3: Scalable Permutation-Equivariant Visual Geometry Learning

July 17, 2025
papers.authors: Yifan Wang, Jianjun Zhou, Haoyi Zhu, Wenzheng Chang, Yang Zhou, Zizun Li, Junyi Chen, Jiangmiao Pang, Chunhua Shen, Tong He
cs.AI

papers.abstract

Nous présentons pi^3, un réseau de neurones à propagation avant qui propose une approche novatrice pour la reconstruction de la géométrie visuelle, rompant avec la dépendance à une vue de référence fixe conventionnelle. Les méthodes précédentes ancraient souvent leurs reconstructions à un point de vue désigné, un biais inductif pouvant entraîner des instabilités et des échecs si la référence est sous-optimale. En revanche, pi^3 utilise une architecture entièrement permutation-équivariante pour prédire des poses de caméra invariantes par affinité et des cartes de points locaux invariantes à l'échelle, sans aucun cadre de référence. Cette conception rend notre modèle intrinsèquement robuste à l'ordre des entrées et hautement scalable. Ces avantages permettent à notre approche simple et sans biais d'atteindre des performances de pointe sur une large gamme de tâches, incluant l'estimation de la pose de la caméra, l'estimation de la profondeur monoculaire/vidéo, et la reconstruction dense de cartes de points. Le code et les modèles sont disponibles publiquement.
English
We introduce pi^3, a feed-forward neural network that offers a novel approach to visual geometry reconstruction, breaking the reliance on a conventional fixed reference view. Previous methods often anchor their reconstructions to a designated viewpoint, an inductive bias that can lead to instability and failures if the reference is suboptimal. In contrast, pi^3 employs a fully permutation-equivariant architecture to predict affine-invariant camera poses and scale-invariant local point maps without any reference frames. This design makes our model inherently robust to input ordering and highly scalable. These advantages enable our simple and bias-free approach to achieve state-of-the-art performance on a wide range of tasks, including camera pose estimation, monocular/video depth estimation, and dense point map reconstruction. Code and models are publicly available.
PDF361July 18, 2025