Tout vers Complet : Incitation à Depth Anything pour l'achèvement de la profondeur en une seule étape
Any to Full: Prompting Depth Anything for Depth Completion in One Stage
March 5, 2026
Auteurs: Zhiyuan Zhou, Ruofeng Liu, Taichi Liu, Weijian Zuo, Shanshan Wang, Zhiqing Hong, Desheng Zhang
cs.AI
Résumé
L'estimation précise et dense de la profondeur est cruciale pour la perception robotique, mais les capteurs grand public produisent souvent des mesures éparses ou incomplètes en raison de limitations matérielles. Les méthodes existantes de complétion de profondeur par fusion RGBD apprennent des prérequis conditionnés conjointement sur la distribution RGB d'entraînement et des motifs de profondeur spécifiques, limitant la généralisation inter-domaine et la robustesse à divers motifs de profondeur. Des travaux récents exploitent des modèles d'estimation de profondeur monoculaire (MDE) pour introduire des prérequis géométriques indépendants du domaine, mais les stratégies d'intégration en deux étapes reposant sur un alignement explicite relatif-vers-métrique entraînent des calculs supplémentaires et introduisent des distorsions structurelles. À cette fin, nous présentons Any2Full, un framework unifié, indépendant du domaine et agnostique au motif, qui reformule la complétion comme une adaptation par prompts d'échelle d'un modèle MDE préentraîné. Pour gérer les niveaux variables de sparsité et les distributions spatiales irrégulières, nous concevons un Encodeur de Prompts Sensible à l'Échelle. Celui-ci distille les indices d'échelle des entrées éparses en des prompts d'échelle unifiés, guidant le modèle MDE vers des prédictions globalement cohérentes en échelle tout en préservant ses prérequis géométriques. Des expériences approfondies démontrent qu'Any2Full atteint une robustesse et une efficacité supérieures. Il surpasse OMNI-DC de 32,2% en AbsREL moyenne et offre une accélération de 1,4 fois par rapport à PriorDA avec le même backbone MDE, établissant un nouveau paradigme pour la complétion universelle de profondeur. Les codes et checkpoints sont disponibles à l'adresse https://github.com/zhiyuandaily/Any2Full.
English
Accurate, dense depth estimation is crucial for robotic perception, but commodity sensors often yield sparse or incomplete measurements due to hardware limitations. Existing RGBD-fused depth completion methods learn priors jointly conditioned on training RGB distribution and specific depth patterns, limiting domain generalization and robustness to various depth patterns. Recent efforts leverage monocular depth estimation (MDE) models to introduce domain-general geometric priors, but current two-stage integration strategies relying on explicit relative-to-metric alignment incur additional computation and introduce structured distortions. To this end, we present Any2Full, a one-stage, domain-general, and pattern-agnostic framework that reformulates completion as a scale-prompting adaptation of a pretrained MDE model. To address varying depth sparsity levels and irregular spatial distributions, we design a Scale-Aware Prompt Encoder. It distills scale cues from sparse inputs into unified scale prompts, guiding the MDE model toward globally scale-consistent predictions while preserving its geometric priors. Extensive experiments demonstrate that Any2Full achieves superior robustness and efficiency. It outperforms OMNI-DC by 32.2\% in average AbsREL and delivers a 1.4times speedup over PriorDA with the same MDE backbone, establishing a new paradigm for universal depth completion. Codes and checkpoints are available at https://github.com/zhiyuandaily/Any2Full.