π^3: Apprendimento Scalabile della Geometria Visiva con Equivarianza alle Permutazioni
π^3: Scalable Permutation-Equivariant Visual Geometry Learning
July 17, 2025
Autori: Yifan Wang, Jianjun Zhou, Haoyi Zhu, Wenzheng Chang, Yang Zhou, Zizun Li, Junyi Chen, Jiangmiao Pang, Chunhua Shen, Tong He
cs.AI
Abstract
Introduciamo pi^3, una rete neurale feed-forward che offre un approccio innovativo alla ricostruzione della geometria visiva, superando la dipendenza da una vista di riferimento fissa convenzionale. I metodi precedenti spesso ancorano le loro ricostruzioni a un punto di vista designato, un bias induttivo che può portare a instabilità e fallimenti se il riferimento è subottimale. Al contrario, pi^3 utilizza un'architettura completamente permutazione-equivariante per prevedere pose della camera invarianti rispetto alle affinità e mappe di punti locali invarianti rispetto alla scala, senza alcun riferimento a frame specifici. Questo design rende il nostro modello intrinsecamente robusto all'ordine degli input e altamente scalabile. Questi vantaggi consentono al nostro approccio semplice e privo di bias di raggiungere prestazioni all'avanguardia in un'ampia gamma di compiti, tra cui la stima della posa della camera, la stima della profondità monoculare/dai video e la ricostruzione di mappe di punti dense. Codice e modelli sono pubblicamente disponibili.
English
We introduce pi^3, a feed-forward neural network that offers a novel
approach to visual geometry reconstruction, breaking the reliance on a
conventional fixed reference view. Previous methods often anchor their
reconstructions to a designated viewpoint, an inductive bias that can lead to
instability and failures if the reference is suboptimal. In contrast, pi^3
employs a fully permutation-equivariant architecture to predict
affine-invariant camera poses and scale-invariant local point maps without any
reference frames. This design makes our model inherently robust to input
ordering and highly scalable. These advantages enable our simple and bias-free
approach to achieve state-of-the-art performance on a wide range of tasks,
including camera pose estimation, monocular/video depth estimation, and dense
point map reconstruction. Code and models are publicly available.