ChatPaper.aiChatPaper

π^3: Skalierbares permutationsäquivariantes Lernen visueller Geometrie

π^3: Scalable Permutation-Equivariant Visual Geometry Learning

July 17, 2025
papers.authors: Yifan Wang, Jianjun Zhou, Haoyi Zhu, Wenzheng Chang, Yang Zhou, Zizun Li, Junyi Chen, Jiangmiao Pang, Chunhua Shen, Tong He
cs.AI

papers.abstract

Wir stellen pi^3 vor, ein Feed-Forward-Neuronales Netzwerk, das einen neuartigen Ansatz zur visuellen Geometrierekonstruktion bietet und die Abhängigkeit von einer konventionellen festen Referenzansicht bricht. Bisherige Methoden verankern ihre Rekonstruktionen oft an einem bestimmten Blickwinkel, ein induktiver Bias, der zu Instabilität und Fehlern führen kann, wenn die Referenz suboptimal ist. Im Gegensatz dazu verwendet pi^3 eine vollständig permutationsäquivariante Architektur, um affininvariante Kameraposen und skalierungsinvariante lokale Punktkarten ohne jegliche Referenzrahmen vorherzusagen. Dieser Entwurf macht unser Modell inhärent robust gegenüber der Eingabereihenfolge und hochgradig skalierbar. Diese Vorteile ermöglichen es unserem einfachen und biasfreien Ansatz, state-of-the-art Leistung in einer Vielzahl von Aufgaben zu erreichen, einschließlich Kameraposenschätzung, monokularer/videobasierter Tiefenschätzung und dichter Punktkartenrekonstruktion. Code und Modelle sind öffentlich verfügbar.
English
We introduce pi^3, a feed-forward neural network that offers a novel approach to visual geometry reconstruction, breaking the reliance on a conventional fixed reference view. Previous methods often anchor their reconstructions to a designated viewpoint, an inductive bias that can lead to instability and failures if the reference is suboptimal. In contrast, pi^3 employs a fully permutation-equivariant architecture to predict affine-invariant camera poses and scale-invariant local point maps without any reference frames. This design makes our model inherently robust to input ordering and highly scalable. These advantages enable our simple and bias-free approach to achieve state-of-the-art performance on a wide range of tasks, including camera pose estimation, monocular/video depth estimation, and dense point map reconstruction. Code and models are publicly available.
PDF361July 18, 2025