arXiv: 2605.28477v1

SA4Depth: Konsistente Pose-Tiefen-Skalierungsausrichtung für selbstüberwachte monokulare Tiefenschätzung

SA4Depth: Consistent Pose-Depth Scale Alignment for Self-Supervised Monocular Depth Estimation

May 27, 2026
Autoren: Changxuan Li, Nadine Berner, Nassir Navab, Federico Tombari, Stefano Gasperini
cs.CVcs.CVcs.CV

Zusammenfassung

Selbstüberwachte Tiefenschätzung aus monokularen Sequenzen beruht auf dem gemeinsamen Lernen eines Tiefen- und eines Posennetzes. Trotz umfangreicher Forschung zur Verbesserung des Tiefennetzes sind die Bemühungen um das Posenetz nach wie vor begrenzt. In diesem Zusammenhang heben wir, selbst wenn die Tiefe bis auf den Maßstab geschätzt wird, die Bedeutung der Ausrichtung zwischen den Szenenskalen hervor, die von den Pose- und Tiefennetzen geschätzt werden. Anschließend stellen wir SA4Depth vor, einen Ansatz zur Verbesserung dieser Ausrichtung und zur Steigerung der Tiefenvorhersagen, während die Inferenzzeit unverändert bleibt. Unsere vorgeschlagene Methode nutzt die während des Trainings geschätzte Tiefe, um lernbare visuelle Merkmale über aufeinanderfolgende Bilder zurückzuprojizieren und die Poseschätzungen durch Reduzierung der Merkmalsausrichtungsresiduen zu verfeinern. Mit unserer Methode werden die von den separaten Tiefen- und Posennetzen geschätzten Szenenskalen ausgerichtet und die Maßstabskonsistenz der Vorhersagen über verschiedene Sequenzen hinweg verbessert. Unsere differenzierbare Verfeinerung integriert sich nahtlos in bestehende selbstüberwachte Pipelines und verbessert deren Tiefenschätzungen erheblich. Wir demonstrieren dies mit umfangreichen Experimenten sowohl im Außen- als auch im Innenbereich auf KITTI, Cityscapes und NYUv2. Zusätzlich bestätigen Ergebnisse auf KITTI Odometrie die Wirksamkeit unserer Posenverfeinerung. Unser Code ist verfügbar unter https://github.com/Runningchauncey/SA4Depth.
English
Self-supervised depth estimation from monocular sequences relies on the joint learning of a depth and a pose network. Despite abundant research done to improve the depth network, efforts on the pose remain limited. In this context, even when depth is estimated up to scale, we highlight the importance of the alignment between the scene scales estimated by the pose and depth nets. Then, we introduce SA4Depth, an approach to improve this alignment and boost the depth predictions while keeping the inference time unchanged. Our proposed method uses the depth estimated during training to reproject learnable visual features across consecutive frames and refine the pose estimates by reducing feature alignment residuals. With our method, the estimated scene scales by the separate depth and pose networks are aligned, and the prediction scale consistency is improved across different sequences. Our differentiable refinement integrates seamlessly into existing self-supervised pipelines and substantially improves their depth estimates. We demonstrate this with extensive experiments both outdoors and indoors on KITTI, Cityscapes, and NYUv2. Additionally, results on KITTI Odometry confirm the effectiveness of our pose refinement. Our code is available at https://github.com/Runningchauncey/SA4Depth .
PDFMay 28, 2026