arXiv: 2605.28477v1
SA4Depth : Alignement cohérent des échelles pose-profondeur pour l'estimation de profondeur monoculaire auto-supervisée
SA4Depth: Consistent Pose-Depth Scale Alignment for Self-Supervised Monocular Depth Estimation
May 27, 2026
Auteurs: Changxuan Li, Nadine Berner, Nassir Navab, Federico Tombari, Stefano Gasperini
cs.CVcs.CVcs.CV
Résumé
L'estimation de profondeur auto-supervisée à partir de séquences monoculaires repose sur l'apprentissage conjoint d'un réseau de profondeur et d'un réseau de pose. Malgré les nombreuses recherches visant à améliorer le réseau de profondeur, les efforts consacrés à la pose restent limités. Dans ce contexte, même lorsque la profondeur est estimée à une échelle près, nous soulignons l'importance de l'alignement entre les échelles de scène estimées par les réseaux de pose et de profondeur. Nous introduisons ensuite SA4Depth, une approche visant à améliorer cet alignement et à renforcer les prédictions de profondeur tout en maintenant le temps d'inférence inchangé. La méthode que nous proposons utilise la profondeur estimée pendant l'entraînement pour reprojeter des caractéristiques visuelles apprenables sur des images consécutives et affiner les estimations de pose en réduisant les résidus d'alignement des caractéristiques. Avec notre méthode, les échelles de scène estimées par les réseaux distincts de pose et de profondeur sont alignées, et la cohérence de l'échelle de prédiction est améliorée d'une séquence à l'autre. Notre raffinement différentiable s'intègre de manière transparente dans les pipelines auto-supervisés existants et améliore considérablement leurs estimations de profondeur. Nous le démontrons par des expériences approfondies en extérieur et en intérieur sur KITTI, Cityscapes et NYUv2. De plus, les résultats sur KITTI Odometry confirment l'efficacité de notre raffinement de pose. Notre code est disponible à l'adresse https://github.com/Runningchauncey/SA4Depth.
English
Self-supervised depth estimation from monocular sequences relies on the joint learning of a depth and a pose network. Despite abundant research done to improve the depth network, efforts on the pose remain limited. In this context, even when depth is estimated up to scale, we highlight the importance of the alignment between the scene scales estimated by the pose and depth nets. Then, we introduce SA4Depth, an approach to improve this alignment and boost the depth predictions while keeping the inference time unchanged. Our proposed method uses the depth estimated during training to reproject learnable visual features across consecutive frames and refine the pose estimates by reducing feature alignment residuals. With our method, the estimated scene scales by the separate depth and pose networks are aligned, and the prediction scale consistency is improved across different sequences. Our differentiable refinement integrates seamlessly into existing self-supervised pipelines and substantially improves their depth estimates. We demonstrate this with extensive experiments both outdoors and indoors on KITTI, Cityscapes, and NYUv2. Additionally, results on KITTI Odometry confirm the effectiveness of our pose refinement. Our code is available at https://github.com/Runningchauncey/SA4Depth .