Depth Anything mit beliebigen Vorwissen

Zusammenfassung

Diese Arbeit stellt Prior Depth Anything vor, ein Framework, das unvollständige, aber präzise metrische Informationen aus der Tiefenmessung mit relativen, aber vollständigen geometrischen Strukturen aus der Tiefenvorhersage kombiniert, um genaue, dichte und detaillierte metrische Tiefenkarten für jede Szene zu erzeugen. Zu diesem Zweck entwerfen wir eine Pipeline von grob zu fein, um die beiden komplementären Tiefenquellen schrittweise zu integrieren. Zunächst führen wir eine pixelgenaue metrische Ausrichtung und eine distanzbewusste Gewichtung ein, um verschiedene metrische Priors durch die explizite Verwendung von Tiefenvorhersagen vorab zu füllen. Dies verringert effektiv die Domänenlücke zwischen den Prior-Mustern und verbessert die Generalisierung über verschiedene Szenarien hinweg. Zweitens entwickeln wir ein konditioniertes monokulares Tiefenschätzungsmodell (MDE), um das inhärente Rauschen der Tiefenpriors zu verfeinern. Durch die Konditionierung auf den normalisierten vorab gefüllten Prior und die Vorhersage fusioniert das Modell die beiden komplementären Tiefenquellen weiter implizit. Unser Modell zeigt eine beeindruckende Zero-Shot-Generalisierung über Tiefenvervollständigung, Super-Resolution und Inpainting in 7 realen Datensätzen und erreicht oder übertrifft sogar frühere aufgabenspezifische Methoden. Noch wichtiger ist, dass es bei herausfordernden, unbekannten gemischten Priors gut abschneidet und Testzeitverbesserungen durch den Wechsel von Vorhersagemodellen ermöglicht, wodurch ein flexibler Kompromiss zwischen Genauigkeit und Effizienz geboten wird, während es sich mit Fortschritten in MDE-Modellen weiterentwickelt.

English

This work presents Prior Depth Anything, a framework that combines incomplete but precise metric information in depth measurement with relative but complete geometric structures in depth prediction, generating accurate, dense, and detailed metric depth maps for any scene. To this end, we design a coarse-to-fine pipeline to progressively integrate the two complementary depth sources. First, we introduce pixel-level metric alignment and distance-aware weighting to pre-fill diverse metric priors by explicitly using depth prediction. It effectively narrows the domain gap between prior patterns, enhancing generalization across varying scenarios. Second, we develop a conditioned monocular depth estimation (MDE) model to refine the inherent noise of depth priors. By conditioning on the normalized pre-filled prior and prediction, the model further implicitly merges the two complementary depth sources. Our model showcases impressive zero-shot generalization across depth completion, super-resolution, and inpainting over 7 real-world datasets, matching or even surpassing previous task-specific methods. More importantly, it performs well on challenging, unseen mixed priors and enables test-time improvements by switching prediction models, providing a flexible accuracy-efficiency trade-off while evolving with advancements in MDE models.

Depth Anything mit beliebigen Vorwissen

Depth Anything with Any Prior

Zusammenfassung

Support