Cualquiera a Completo: Estimulando a Depth Anything para la Completación de Profundidad en una Etapa

Resumen

La estimación de densidad de profundidad precisa es crucial para la percepción robótica, pero los sensores comerciales a menudo producen mediciones dispersas o incompletas debido a limitaciones de hardware. Los métodos existentes de completado de profundidad fusionada con RGB aprenden previos condicionados conjuntamente a la distribución de entrenamiento RGB y a patrones de profundidad específicos, lo que limita la generalización de dominio y la robustez ante diversos patrones de profundidad. Esfuerzos recientes aprovechan modelos de estimación de profundidad monoculares (MDE) para introducir previos geométricos generales de dominio, pero las estrategias de integración en dos etapas actuales, que dependen de una alineación explícita relativa-a-métrica, conllevan un cómputo adicional e introducen distorsiones estructuradas. Para ello, presentamos Any2Full, un marco unificado en una sola etapa, general de dominio y agnóstico al patrón, que reformula el completado como una adaptación mediante indicación de escala de un modelo MDE preentrenado. Para abordar los niveles variables de dispersión de profundidad y las distribuciones espaciales irregulares, diseñamos un Codificador de Indicaciones Consciente de la Escala. Este destila indicios de escala a partir de entradas dispersas en indicaciones de escala unificadas, guiando al modelo MDE hacia predicciones globalmente consistentes en escala mientras preserva sus previos geométricos. Experimentos exhaustivos demuestran que Any2Full logra una robustez y eficiencia superiores. Supera a OMNI-DC en un 32.2% en AbsREL promedio y ofrece una aceleración de 1.4 veces sobre PriorDA con el mismo backbone MDE, estableciendo un nuevo paradigma para el completado de profundidad universal. Los códigos y puntos de control están disponibles en https://github.com/zhiyuandaily/Any2Full.

English

Accurate, dense depth estimation is crucial for robotic perception, but commodity sensors often yield sparse or incomplete measurements due to hardware limitations. Existing RGBD-fused depth completion methods learn priors jointly conditioned on training RGB distribution and specific depth patterns, limiting domain generalization and robustness to various depth patterns. Recent efforts leverage monocular depth estimation (MDE) models to introduce domain-general geometric priors, but current two-stage integration strategies relying on explicit relative-to-metric alignment incur additional computation and introduce structured distortions. To this end, we present Any2Full, a one-stage, domain-general, and pattern-agnostic framework that reformulates completion as a scale-prompting adaptation of a pretrained MDE model. To address varying depth sparsity levels and irregular spatial distributions, we design a Scale-Aware Prompt Encoder. It distills scale cues from sparse inputs into unified scale prompts, guiding the MDE model toward globally scale-consistent predictions while preserving its geometric priors. Extensive experiments demonstrate that Any2Full achieves superior robustness and efficiency. It outperforms OMNI-DC by 32.2\% in average AbsREL and delivers a 1.4times speedup over PriorDA with the same MDE backbone, establishing a new paradigm for universal depth completion. Codes and checkpoints are available at https://github.com/zhiyuandaily/Any2Full.

Cualquiera a Completo: Estimulando a Depth Anything para la Completación de Profundidad en una Etapa

Any to Full: Prompting Depth Anything for Depth Completion in One Stage

Resumen

Support