ChatPaper.aiChatPaper

π^3: Aprendizado Escalável de Geometria Visual com Equivariância a Permutações

π^3: Scalable Permutation-Equivariant Visual Geometry Learning

July 17, 2025
Autores: Yifan Wang, Jianjun Zhou, Haoyi Zhu, Wenzheng Chang, Yang Zhou, Zizun Li, Junyi Chen, Jiangmiao Pang, Chunhua Shen, Tong He
cs.AI

Resumo

Apresentamos o pi^3, uma rede neural feed-forward que oferece uma nova abordagem para a reconstrução de geometria visual, rompendo a dependência de uma visão de referência fixa convencional. Métodos anteriores frequentemente ancoram suas reconstruções a um ponto de vista designado, um viés indutivo que pode levar a instabilidades e falhas se a referência for subótima. Em contraste, o pi^3 emprega uma arquitetura totalmente permutação-equivariante para prever poses de câmera invariantes a transformações afins e mapas de pontos locais invariantes à escala, sem a necessidade de quadros de referência. Esse design torna nosso modelo intrinsecamente robusto à ordem de entrada e altamente escalável. Essas vantagens permitem que nossa abordagem simples e livre de vieses alcance desempenho de ponta em uma ampla gama de tarefas, incluindo estimativa de pose de câmera, estimativa de profundidade monocromática/em vídeo e reconstrução de mapas de pontos densos. Códigos e modelos estão disponíveis publicamente.
English
We introduce pi^3, a feed-forward neural network that offers a novel approach to visual geometry reconstruction, breaking the reliance on a conventional fixed reference view. Previous methods often anchor their reconstructions to a designated viewpoint, an inductive bias that can lead to instability and failures if the reference is suboptimal. In contrast, pi^3 employs a fully permutation-equivariant architecture to predict affine-invariant camera poses and scale-invariant local point maps without any reference frames. This design makes our model inherently robust to input ordering and highly scalable. These advantages enable our simple and bias-free approach to achieve state-of-the-art performance on a wide range of tasks, including camera pose estimation, monocular/video depth estimation, and dense point map reconstruction. Code and models are publicly available.
PDF621July 18, 2025