arXiv: 2605.28477v1
SA4Depth: Согласованное масштабное выравнивание позы и глубины для самообучаемой монокулярной оценки глубины
SA4Depth: Consistent Pose-Depth Scale Alignment for Self-Supervised Monocular Depth Estimation
May 27, 2026
Авторы: Changxuan Li, Nadine Berner, Nassir Navab, Federico Tombari, Stefano Gasperini
cs.CVcs.CVcs.CV
Аннотация
Самоконтролируемая оценка глубины по монокулярным последовательностям основана на совместном обучении сети глубины и сети позы. Несмотря на обширные исследования, направленные на улучшение сети глубины, усилия по улучшению сети позы остаются ограниченными. В этом контексте, даже когда глубина оценивается с точностью до масштаба, мы подчеркиваем важность согласования между масштабами сцены, оцениваемыми сетью позы и сетью глубины. Затем мы представляем SA4Depth — подход, улучшающий это согласование и повышающий точность предсказаний глубины при неизменном времени вывода. Предложенный метод использует глубину, оцененную во время обучения, для репроецирования обучаемых визуальных признаков между последовательными кадрами и уточнения оценок позы за счет уменьшения остатков согласования признаков. С помощью нашего метода оцениваемые отдельными сетями глубины и позы масштабы сцены согласовываются, а согласованность предсказаний масштаба между различными последовательностями улучшается. Наше дифференцируемое уточнение бесшовно встраивается в существующие самоконтролируемые конвейеры и существенно улучшает их оценки глубины. Мы демонстрируем это с помощью обширных экспериментов как на открытых, так и на закрытых пространствах на наборах данных KITTI, Cityscapes и NYUv2. Кроме того, результаты на KITTI Odometry подтверждают эффективность нашего уточнения позы. Наш код доступен по адресу https://github.com/Runningchauncey/SA4Depth.
English
Self-supervised depth estimation from monocular sequences relies on the joint learning of a depth and a pose network. Despite abundant research done to improve the depth network, efforts on the pose remain limited. In this context, even when depth is estimated up to scale, we highlight the importance of the alignment between the scene scales estimated by the pose and depth nets. Then, we introduce SA4Depth, an approach to improve this alignment and boost the depth predictions while keeping the inference time unchanged. Our proposed method uses the depth estimated during training to reproject learnable visual features across consecutive frames and refine the pose estimates by reducing feature alignment residuals. With our method, the estimated scene scales by the separate depth and pose networks are aligned, and the prediction scale consistency is improved across different sequences. Our differentiable refinement integrates seamlessly into existing self-supervised pipelines and substantially improves their depth estimates. We demonstrate this with extensive experiments both outdoors and indoors on KITTI, Cityscapes, and NYUv2. Additionally, results on KITTI Odometry confirm the effectiveness of our pose refinement. Our code is available at https://github.com/Runningchauncey/SA4Depth .