Da Qualsiasi a Completo: Prompting Depth Anything per il Completamento della Profondità in una Singola Fase

Abstract

La stima accurata e densa della profondità è cruciale per la percezione robotica, ma i sensori di largo consumo spesso forniscono misurazioni sparse o incomplete a causa di limitazioni hardware. I metodi esistenti di completamento della profondità basati sulla fusione RGBD apprendono prior congiuntamente condizionate sulla distribuzione RGB di addestramento e su specifici pattern di profondità, limitando la generalizzazione di dominio e la robustezza a vari pattern di profondità. Recenti sforzi sfruttano modelli di stima monoculare della profondità (MDE) per introdurre prior geometrici generali di dominio, ma le attuali strategie di integrazione a due stadi, che si basano su un allineamento esplicito relativo-metrico, comportano calcoli aggiuntivi e introducono distorsioni strutturate. A tal fine, presentiamo Any2Full, un framework monostadio, generale di dominio e agnostico al pattern, che riformula il completamento come un adattamento tramite prompt di scala di un modello MDE preaddestrato. Per gestire i vari livelli di sparsità della profondità e le distribuzioni spaziali irregolari, progettiamo un Encoder di Prompt Consapevole della Scala. Questo distilla indicazioni di scala dagli input sparsi in prompt di scala unificati, guidando il modello MDE verso previsioni globalmente consistenti in scala, preservando al contempo le sue prior geometriche. Esperimenti estensivi dimostrano che Any2Full raggiunge una robustezza e un'efficienza superiori. Supera OMNI-DC del 32,2% in AbsREL medio e fornisce un incremento di velocità di 1,4 volte rispetto a PriorDA con lo stesso backbone MDE, stabilendo un nuovo paradigma per il completamento universale della profondità. Codici e checkpoint sono disponibili su https://github.com/zhiyuandaily/Any2Full.

English

Accurate, dense depth estimation is crucial for robotic perception, but commodity sensors often yield sparse or incomplete measurements due to hardware limitations. Existing RGBD-fused depth completion methods learn priors jointly conditioned on training RGB distribution and specific depth patterns, limiting domain generalization and robustness to various depth patterns. Recent efforts leverage monocular depth estimation (MDE) models to introduce domain-general geometric priors, but current two-stage integration strategies relying on explicit relative-to-metric alignment incur additional computation and introduce structured distortions. To this end, we present Any2Full, a one-stage, domain-general, and pattern-agnostic framework that reformulates completion as a scale-prompting adaptation of a pretrained MDE model. To address varying depth sparsity levels and irregular spatial distributions, we design a Scale-Aware Prompt Encoder. It distills scale cues from sparse inputs into unified scale prompts, guiding the MDE model toward globally scale-consistent predictions while preserving its geometric priors. Extensive experiments demonstrate that Any2Full achieves superior robustness and efficiency. It outperforms OMNI-DC by 32.2\% in average AbsREL and delivers a 1.4times speedup over PriorDA with the same MDE backbone, establishing a new paradigm for universal depth completion. Codes and checkpoints are available at https://github.com/zhiyuandaily/Any2Full.

Da Qualsiasi a Completo: Prompting Depth Anything per il Completamento della Profondità in una Singola Fase

Any to Full: Prompting Depth Anything for Depth Completion in One Stage

Abstract

Support