ChatPaper.aiChatPaper

SurGe: Улучшенная геометрия поверхности в точечных картах

SurGe: Improved Surface Geometry in Point Maps

May 29, 2026
Авторы: Karim Knaebel, Gonzalo Martin Garcia, Christian Schmidt, Ilya Fradlin, Lucas Nunes, Daan de Geus, Bastian Leibe
cs.AI

Аннотация

Современные методы прямой трехмерной реконструкции, основанные на прямом проходе (feedforward), успешно предсказывают карты точек и оценивают глобальную трехмерную геометрию. Однако их прогнозы по-прежнему содержат неточности локальной геометрии поверхности, которые хорошо заметны качественно, но лишь слабо отражаются в общепринятых метриках. Чтобы сделать эти ошибки более явными при оценке, мы вводим метрику нормалей карты точек, которая оценивает локальную ориентацию поверхности, выводимую из соседних трехмерных предсказаний. Для снижения таких ошибок мы предлагаем два взаимодополняющих компонента: функцию потерь согласования градиентов точек, контролирующую нормализованные по глубине трехмерные конечные разности, и декодер внимания окрестности (Neighborhood Attention Decoder, NAD), который постепенно увеличивает разрешение признаков и использует механизм внимания окрестности для смешивания локальных признаков. На восьми бенчмарках монокулярной геометрии в режиме zero-shot наша модель SurGe достигает наилучшего среднего ранга по глобальной метрике AbsRel для карт точек и стабильно улучшает показатели локальных карт точек и их нормалей.
English
Recent feedforward 3D reconstruction methods predict point maps and estimate global 3D geometry remarkably well. However, their predictions still exhibit inaccurate local surface geometry, which is clearly visible qualitatively but only weakly reflected in common metrics. To make these errors more explicit in evaluation, we introduce a point map normal metric that evaluates the local surface orientation induced by neighboring 3D predictions. To reduce these errors, we propose two complementary components: a point gradient matching loss that supervises depth-normalized 3D finite differences, and a Neighborhood Attention Decoder (NAD) that progressively upsamples features and uses Neighborhood Attention for local feature mixing. Across eight zero-shot monocular geometry benchmarks, our model, SurGe, achieves the best average rank for global point map AbsRel and consistently improves local point map and point map normal evaluations.