ChatPaper.aiChatPaper

Profondeur Quelconque avec Tout A Priori

Depth Anything with Any Prior

May 15, 2025
Auteurs: Zehan Wang, Siyu Chen, Lihe Yang, Jialei Wang, Ziang Zhang, Hengshuang Zhao, Zhou Zhao
cs.AI

Résumé

Ce travail présente Prior Depth Anything, un cadre qui combine des informations métriques incomplètes mais précises en matière de mesure de profondeur avec des structures géométriques relatives mais complètes en prédiction de profondeur, générant ainsi des cartes de profondeur métriques denses, détaillées et précises pour n'importe quelle scène. Pour ce faire, nous concevons un pipeline allant du grossier au fin pour intégrer progressivement ces deux sources de profondeur complémentaires. Tout d'abord, nous introduisons un alignement métrique au niveau des pixels et une pondération basée sur la distance pour pré-remplir divers a priori métriques en utilisant explicitement la prédiction de profondeur. Cela réduit efficacement l'écart de domaine entre les motifs a priori, améliorant ainsi la généralisation dans divers scénarios. Ensuite, nous développons un modèle de monocular depth estimation (MDE) conditionné pour affiner le bruit inhérent aux a priori de profondeur. En se basant sur l'a priori pré-rempli normalisé et la prédiction, le modèle fusionne implicitement les deux sources de profondeur complémentaires. Notre modèle démontre une impressionnante généralisation zero-shot dans les tâches de complétion de profondeur, de super-résolution et de réparation sur 7 ensembles de données du monde réel, égalant voire surpassant les méthodes spécifiques précédentes. Plus important encore, il performe bien sur des a priori mixtes inédits et difficiles, et permet des améliorations au moment du test en changeant de modèles de prédiction, offrant ainsi un compromis flexible entre précision et efficacité tout en évoluant avec les avancées des modèles MDE.
English
This work presents Prior Depth Anything, a framework that combines incomplete but precise metric information in depth measurement with relative but complete geometric structures in depth prediction, generating accurate, dense, and detailed metric depth maps for any scene. To this end, we design a coarse-to-fine pipeline to progressively integrate the two complementary depth sources. First, we introduce pixel-level metric alignment and distance-aware weighting to pre-fill diverse metric priors by explicitly using depth prediction. It effectively narrows the domain gap between prior patterns, enhancing generalization across varying scenarios. Second, we develop a conditioned monocular depth estimation (MDE) model to refine the inherent noise of depth priors. By conditioning on the normalized pre-filled prior and prediction, the model further implicitly merges the two complementary depth sources. Our model showcases impressive zero-shot generalization across depth completion, super-resolution, and inpainting over 7 real-world datasets, matching or even surpassing previous task-specific methods. More importantly, it performs well on challenging, unseen mixed priors and enables test-time improvements by switching prediction models, providing a flexible accuracy-efficiency trade-off while evolving with advancements in MDE models.

Summary

AI-Generated Summary

PDF92May 16, 2025