ChatPaper.aiChatPaper

π^3: Aprendizaje Escalable de Geometría Visual con Equivariancia a Permutaciones

π^3: Scalable Permutation-Equivariant Visual Geometry Learning

July 17, 2025
Autores: Yifan Wang, Jianjun Zhou, Haoyi Zhu, Wenzheng Chang, Yang Zhou, Zizun Li, Junyi Chen, Jiangmiao Pang, Chunhua Shen, Tong He
cs.AI

Resumen

Presentamos pi^3, una red neuronal de avance que ofrece un enfoque novedoso para la reconstrucción de geometría visual, rompiendo la dependencia de una vista de referencia fija convencional. Los métodos anteriores suelen anclar sus reconstrucciones a un punto de vista designado, un sesgo inductivo que puede llevar a inestabilidad y fallos si la referencia no es óptima. En contraste, pi^3 emplea una arquitectura completamente permutación-equivariante para predecir poses de cámara invariantes a transformaciones afines y mapas de puntos locales invariantes a escala, sin necesidad de marcos de referencia. Este diseño hace que nuestro modelo sea intrínsecamente robusto al orden de entrada y altamente escalable. Estas ventajas permiten que nuestro enfoque simple y libre de sesgos alcance un rendimiento de vanguardia en una amplia gama de tareas, incluyendo la estimación de poses de cámara, la estimación de profundidad monocular/en video y la reconstrucción de mapas de puntos densos. El código y los modelos están disponibles públicamente.
English
We introduce pi^3, a feed-forward neural network that offers a novel approach to visual geometry reconstruction, breaking the reliance on a conventional fixed reference view. Previous methods often anchor their reconstructions to a designated viewpoint, an inductive bias that can lead to instability and failures if the reference is suboptimal. In contrast, pi^3 employs a fully permutation-equivariant architecture to predict affine-invariant camera poses and scale-invariant local point maps without any reference frames. This design makes our model inherently robust to input ordering and highly scalable. These advantages enable our simple and bias-free approach to achieve state-of-the-art performance on a wide range of tasks, including camera pose estimation, monocular/video depth estimation, and dense point map reconstruction. Code and models are publicly available.
PDF361July 18, 2025