arXiv: 2605.28477v1

SA4Depth: Alineación Consistente de Escala de Pose-Profundidad para la Estimación de Profundidad Monocular Auto-supervisada

SA4Depth: Consistent Pose-Depth Scale Alignment for Self-Supervised Monocular Depth Estimation

May 27, 2026
Autores: Changxuan Li, Nadine Berner, Nassir Navab, Federico Tombari, Stefano Gasperini
cs.CVcs.CVcs.CV

Resumen

La estimación de profundidad auto-supervisada a partir de secuencias monoculares depende del aprendizaje conjunto de una red de profundidad y una red de pose. A pesar de la abundante investigación para mejorar la red de profundidad, los esfuerzos en la pose siguen siendo limitados. En este contexto, incluso cuando la profundidad se estima hasta la escala, destacamos la importancia de la alineación entre las escalas de la escena estimadas por las redes de pose y profundidad. Luego, presentamos SA4Depth, un enfoque para mejorar esta alineación y potenciar las predicciones de profundidad manteniendo el tiempo de inferencia sin cambios. Nuestro método propuesto utiliza la profundidad estimada durante el entrenamiento para reproyectar características visuales aprendibles a través de fotogramas consecutivos y refinar las estimaciones de pose reduciendo los residuos de alineación de características. Con nuestro método, las escalas de la escena estimadas por las redes separadas de profundidad y pose se alinean, y se mejora la consistencia de la escala de predicción en diferentes secuencias. Nuestro refinamiento diferenciable se integra sin problemas en los pipelines auto-supervisados existentes y mejora sustancialmente sus estimaciones de profundidad. Demostramos esto con extensos experimentos tanto en exteriores como en interiores en KITTI, Cityscapes y NYUv2. Además, los resultados en KITTI Odometry confirman la efectividad de nuestro refinamiento de pose. Nuestro código está disponible en https://github.com/Runningchauncey/SA4Depth .
English
Self-supervised depth estimation from monocular sequences relies on the joint learning of a depth and a pose network. Despite abundant research done to improve the depth network, efforts on the pose remain limited. In this context, even when depth is estimated up to scale, we highlight the importance of the alignment between the scene scales estimated by the pose and depth nets. Then, we introduce SA4Depth, an approach to improve this alignment and boost the depth predictions while keeping the inference time unchanged. Our proposed method uses the depth estimated during training to reproject learnable visual features across consecutive frames and refine the pose estimates by reducing feature alignment residuals. With our method, the estimated scene scales by the separate depth and pose networks are aligned, and the prediction scale consistency is improved across different sequences. Our differentiable refinement integrates seamlessly into existing self-supervised pipelines and substantially improves their depth estimates. We demonstrate this with extensive experiments both outdoors and indoors on KITTI, Cityscapes, and NYUv2. Additionally, results on KITTI Odometry confirm the effectiveness of our pose refinement. Our code is available at https://github.com/Runningchauncey/SA4Depth .
PDFMay 28, 2026