ChatPaper.aiChatPaper

π^3: Масштабируемое обучение визуальной геометрии с учетом перестановочной эквивариантности

π^3: Scalable Permutation-Equivariant Visual Geometry Learning

July 17, 2025
Авторы: Yifan Wang, Jianjun Zhou, Haoyi Zhu, Wenzheng Chang, Yang Zhou, Zizun Li, Junyi Chen, Jiangmiao Pang, Chunhua Shen, Tong He
cs.AI

Аннотация

Мы представляем pi^3 — прямую нейронную сеть, которая предлагает новый подход к реконструкции визуальной геометрии, устраняя зависимость от традиционного фиксированного опорного вида. Предыдущие методы часто привязывают свои реконструкции к заданной точке обзора, что является индуктивным смещением, способным приводить к нестабильности и ошибкам, если опорный вид неоптимален. В отличие от них, pi^3 использует полностью перестановочно-эквивариантную архитектуру для предсказания аффинно-инвариантных позиций камер и масштабно-инвариантных локальных карт точек без каких-либо опорных систем. Такая конструкция делает нашу модель изначально устойчивой к порядку входных данных и высоко масштабируемой. Эти преимущества позволяют нашему простому и свободному от смещений подходу достигать передовых результатов в широком спектре задач, включая оценку позиций камер, монохромную/видео оценку глубины и реконструкцию плотных карт точек. Код и модели доступны публично.
English
We introduce pi^3, a feed-forward neural network that offers a novel approach to visual geometry reconstruction, breaking the reliance on a conventional fixed reference view. Previous methods often anchor their reconstructions to a designated viewpoint, an inductive bias that can lead to instability and failures if the reference is suboptimal. In contrast, pi^3 employs a fully permutation-equivariant architecture to predict affine-invariant camera poses and scale-invariant local point maps without any reference frames. This design makes our model inherently robust to input ordering and highly scalable. These advantages enable our simple and bias-free approach to achieve state-of-the-art performance on a wide range of tasks, including camera pose estimation, monocular/video depth estimation, and dense point map reconstruction. Code and models are publicly available.
PDF351July 18, 2025