Qualquer para Completo: Estimando o Depth Anything para Preenchimento de Profundidade em Um Único Estágio

Resumo

A estimação precisa e densa de profundidade é crucial para a percepção robótica, mas os sensores comerciais frequentemente produzem medições esparsas ou incompletas devido a limitações de hardware. Os métodos existentes de preenchimento de profundidade com fusão RGBD aprendem prévias condicionadas conjuntamente à distribuição RGB de treino e a padrões específicos de profundidade, limitando a generalização de domínio e a robustez a vários padrões de profundidade. Esforços recentes aproveitam modelos de estimação monoculares de profundidade (MDE) para introduzir prévias geométricas gerais de domínio, mas as estratégias de integração em duas etapas atuais, que dependem de um alinhamento explícito relativo-para-métrico, acarretam computação adicional e introduzem distorções estruturadas. Para isso, apresentamos o Any2Full, uma estrutura unificada (one-stage), geral de domínio e agnóstica a padrões, que reformula o preenchimento como uma adaptação por "scale-prompting" de um modelo MDE pré-treinado. Para lidar com os níveis variáveis de esparsidade de profundidade e distribuições espaciais irregulares, projetamos um Codificador de Prompt Consciente da Escala (Scale-Aware Prompt Encoder). Ele destila indícios de escala a partir de entradas esparsas em prompts de escala unificados, orientando o modelo MDE para previsões globalmente consistentes em escala, enquanto preserva suas prévias geométricas. Experimentos extensivos demonstram que o Any2Full alcança robustez e eficiência superiores. Ele supera o OMNI-DC em 32,2% na métrica AbsREL média e oferece uma aceleração de 1,4x em relação ao PriorDA com o mesmo backbone MDE, estabelecendo um novo paradigma para o preenchimento universal de profundidade. Códigos e checkpoints estão disponíveis em https://github.com/zhiyuandaily/Any2Full.

English

Accurate, dense depth estimation is crucial for robotic perception, but commodity sensors often yield sparse or incomplete measurements due to hardware limitations. Existing RGBD-fused depth completion methods learn priors jointly conditioned on training RGB distribution and specific depth patterns, limiting domain generalization and robustness to various depth patterns. Recent efforts leverage monocular depth estimation (MDE) models to introduce domain-general geometric priors, but current two-stage integration strategies relying on explicit relative-to-metric alignment incur additional computation and introduce structured distortions. To this end, we present Any2Full, a one-stage, domain-general, and pattern-agnostic framework that reformulates completion as a scale-prompting adaptation of a pretrained MDE model. To address varying depth sparsity levels and irregular spatial distributions, we design a Scale-Aware Prompt Encoder. It distills scale cues from sparse inputs into unified scale prompts, guiding the MDE model toward globally scale-consistent predictions while preserving its geometric priors. Extensive experiments demonstrate that Any2Full achieves superior robustness and efficiency. It outperforms OMNI-DC by 32.2\% in average AbsREL and delivers a 1.4times speedup over PriorDA with the same MDE backbone, establishing a new paradigm for universal depth completion. Codes and checkpoints are available at https://github.com/zhiyuandaily/Any2Full.

Qualquer para Completo: Estimando o Depth Anything para Preenchimento de Profundidade em Um Único Estágio

Any to Full: Prompting Depth Anything for Depth Completion in One Stage

Resumo

Support