arXiv: 2605.28477v1
SA4Depth: 자기 지도 단안 깊이 추정을 위한 일관된 포즈-깊이 스케일 정렬
SA4Depth: Consistent Pose-Depth Scale Alignment for Self-Supervised Monocular Depth Estimation
May 27, 2026
저자: Changxuan Li, Nadine Berner, Nassir Navab, Federico Tombari, Stefano Gasperini
cs.CVcs.CVcs.CV
초록
단안 시퀀스로부터의 자기지도 깊이 추정은 깊이 네트워크와 자세 네트워크의 공동 학습에 의존한다. 깊이 네트워크를 개선하기 위한 연구는 풍부하게 이루어졌지만, 자세에 대한 연구는 여전히 제한적이다. 이러한 맥락에서, 깊이가 스케일까지 추정되더라도 자세 네트워크와 깊이 네트워크가 추정한 장면 스케일 간의 정렬 중요성을 강조한다. 그런 다음, 우리는 SA4Depth를 소개한다. 이는 추론 시간을 변경하지 않으면서 이러한 정렬을 개선하고 깊이 예측을 향상시키는 접근법이다. 제안된 방법은 학습 중 추정된 깊이를 사용하여 연속된 프레임 간에 학습 가능한 시각적 특징을 재투영하고 특징 정렬 잔차를 줄여 자세 추정을 정제한다. 이 방법을 통해 별도의 깊이 네트워크와 자세 네트워크가 추정한 장면 스케일이 정렬되며, 서로 다른 시퀀스 간 예측 스케일 일관성이 향상된다. 미분 가능한 정제는 기존의 자기지도 파이프라인에 원활하게 통합되며, 깊이 추정을 실질적으로 개선한다. 이를 KITTI, Cityscapes 및 NYUv2에서의 실내 및 실외 광범위한 실험을 통해 입증한다. 또한 KITTI Odometry 결과는 자세 정제의 효과를 확인한다. 코드는 https://github.com/Runningchauncey/SA4Depth에서 제공된다.
English
Self-supervised depth estimation from monocular sequences relies on the joint learning of a depth and a pose network. Despite abundant research done to improve the depth network, efforts on the pose remain limited. In this context, even when depth is estimated up to scale, we highlight the importance of the alignment between the scene scales estimated by the pose and depth nets. Then, we introduce SA4Depth, an approach to improve this alignment and boost the depth predictions while keeping the inference time unchanged. Our proposed method uses the depth estimated during training to reproject learnable visual features across consecutive frames and refine the pose estimates by reducing feature alignment residuals. With our method, the estimated scene scales by the separate depth and pose networks are aligned, and the prediction scale consistency is improved across different sequences. Our differentiable refinement integrates seamlessly into existing self-supervised pipelines and substantially improves their depth estimates. We demonstrate this with extensive experiments both outdoors and indoors on KITTI, Cityscapes, and NYUv2. Additionally, results on KITTI Odometry confirm the effectiveness of our pose refinement. Our code is available at https://github.com/Runningchauncey/SA4Depth .