ChatPaper.aiChatPaper

π^3: Schaalbaar visueel geometrie leren met permutatie-equivariantie

π^3: Scalable Permutation-Equivariant Visual Geometry Learning

July 17, 2025
Auteurs: Yifan Wang, Jianjun Zhou, Haoyi Zhu, Wenzheng Chang, Yang Zhou, Zizun Li, Junyi Chen, Jiangmiao Pang, Chunhua Shen, Tong He
cs.AI

Samenvatting

We introduceren pi^3, een feedforward neuraal netwerk dat een nieuwe benadering biedt voor visuele geometrie-reconstructie, waardoor de afhankelijkheid van een conventioneel vast referentiebeeld wordt doorbroken. Eerdere methodes verankeren hun reconstructies vaak aan een specifiek gezichtspunt, een inductieve bias die kan leiden tot instabiliteit en mislukkingen als het referentiepunt suboptimaal is. In tegenstelling hiermee gebruikt pi^3 een volledig permutatie-equivariante architectuur om affiene-invariante cameraposities en schaal-invariante lokale puntkaarten te voorspellen zonder enige referentiekaders. Dit ontwerp maakt ons model inherent robuust tegen de volgorde van de invoer en zeer schaalbaar. Deze voordelen stellen onze eenvoudige en bias-vrije benadering in staat om state-of-the-art prestaties te behalen op een breed scala aan taken, waaronder camerapositie-schatting, monoscopische/video-diepteschatting en dichte puntkaartreconstructie. Code en modellen zijn publiekelijk beschikbaar.
English
We introduce pi^3, a feed-forward neural network that offers a novel approach to visual geometry reconstruction, breaking the reliance on a conventional fixed reference view. Previous methods often anchor their reconstructions to a designated viewpoint, an inductive bias that can lead to instability and failures if the reference is suboptimal. In contrast, pi^3 employs a fully permutation-equivariant architecture to predict affine-invariant camera poses and scale-invariant local point maps without any reference frames. This design makes our model inherently robust to input ordering and highly scalable. These advantages enable our simple and bias-free approach to achieve state-of-the-art performance on a wide range of tasks, including camera pose estimation, monocular/video depth estimation, and dense point map reconstruction. Code and models are publicly available.
PDF641July 18, 2025