Jeder zu Vollständig: Einstufige Tiefenvervollständigung durch Prompting von Depth Anything

Zusammenfassung

Eine präzise, dichte Tiefenschätzung ist entscheidend für die Roboterwahrnehmung, doch handelsübliche Sensoren liefern aufgrund von Hardwarebeschränkungen oft spärliche oder unvollständige Messungen. Bestehende RGBD-Fusionierungsmethoden zur Tiefenvervollständigung lernen Prior-Wissen, das gemeinsam von der Trainings-RGB-Verteilung und spezifischen Tiefenmustern abhängt, was die Domänenverallgemeinerung und Robustheit gegenüber verschiedenen Tiefenmustern einschränkt. Jüngste Ansätze nutzen monokulare Tiefenschätzungsmodelle (MDE), um domänenübergreifende geometrische Priors einzuführen, doch aktuelle Zwei-Stufen-Integrationsstrategien, die auf expliziter relativer-zu-metrischer Ausrichtung basieren, verursachen zusätzlichen Rechenaufwand und führen zu strukturellen Verzerrungen. Daher stellen wir Any2Full vor, ein einstufiges, domänenübergreifendes und musterunabhängiges Framework, das die Vervollständigung als Skalen-Prompt-Adaption eines vortrainierten MDE-Modells neu formuliert. Um unterschiedliche Sparsitätsgrade der Tiefe und unregelmäßige räumliche Verteilungen zu adressieren, entwerfen wir einen skalensensitiven Prompt-Encoder. Dieser extrahiert Skalenhinweise aus spärlichen Eingaben zu einheitlichen Skalen-Prompts, die das MDE-Modell zu global skalenskonsistenten Vorhersagen führen, während seine geometrischen Priors erhalten bleiben. Umfangreiche Experimente zeigen, dass Any2Full überlegene Robustheit und Effizienz erreicht. Es übertrifft OMNI-DC um 32,2 % im durchschnittlichen AbsREL und erzielt eine 1,4-fache Beschleunigung gegenüber PriorDA mit demselben MDE-Backbone, wodurch ein neues Paradigma für universelle Tiefenvervollständigung etabliert wird. Codes und Checkpoints sind verfügbar unter https://github.com/zhiyuandaily/Any2Full.

English

Accurate, dense depth estimation is crucial for robotic perception, but commodity sensors often yield sparse or incomplete measurements due to hardware limitations. Existing RGBD-fused depth completion methods learn priors jointly conditioned on training RGB distribution and specific depth patterns, limiting domain generalization and robustness to various depth patterns. Recent efforts leverage monocular depth estimation (MDE) models to introduce domain-general geometric priors, but current two-stage integration strategies relying on explicit relative-to-metric alignment incur additional computation and introduce structured distortions. To this end, we present Any2Full, a one-stage, domain-general, and pattern-agnostic framework that reformulates completion as a scale-prompting adaptation of a pretrained MDE model. To address varying depth sparsity levels and irregular spatial distributions, we design a Scale-Aware Prompt Encoder. It distills scale cues from sparse inputs into unified scale prompts, guiding the MDE model toward globally scale-consistent predictions while preserving its geometric priors. Extensive experiments demonstrate that Any2Full achieves superior robustness and efficiency. It outperforms OMNI-DC by 32.2\% in average AbsREL and delivers a 1.4times speedup over PriorDA with the same MDE backbone, establishing a new paradigm for universal depth completion. Codes and checkpoints are available at https://github.com/zhiyuandaily/Any2Full.

Jeder zu Vollständig: Einstufige Tiefenvervollständigung durch Prompting von Depth Anything

Any to Full: Prompting Depth Anything for Depth Completion in One Stage

Zusammenfassung

Support