ChatPaper.aiChatPaper

AnyDepth: Estimación de Profundidad Simplificada

AnyDepth: Depth Estimation Made Easy

January 6, 2026
Autores: Zeyu Ren, Zeyu Zhang, Wukai Li, Qingxiang Liu, Hao Tang
cs.AI

Resumen

La estimación de profundidad monocular tiene como objetivo recuperar la información de profundidad de escenas 3D a partir de imágenes 2D. Los trabajos recientes han logrado avances significativos, pero su dependencia de conjuntos de datos a gran escala y decodificadores complejos ha limitado su eficiencia y capacidad de generalización. En este artículo, proponemos un marco de trabajo ligero y centrado en los datos para la estimación de profundidad monocular de tipo zero-shot. En primer lugar, adoptamos DINOv3 como codificador visual para obtener características densas de alta calidad. En segundo lugar, para abordar las desventajas inherentes de la estructura compleja del DPT, diseñamos el Transformer de Profundidad Simple (SDT), un decodificador compacto basado en transformers. En comparación con el DPT, utiliza un proceso de fusión de características y muestreo ascendente de una sola vía para reducir la sobrecarga computacional de la fusión de características multi-escala, logrando una mayor precisión mientras reduce el número de parámetros en aproximadamente un 85%-89%. Además, proponemos una estrategia de filtrado basada en la calidad para eliminar muestras perjudiciales, reduciendo así el tamaño del conjunto de datos mientras se mejora la calidad general del entrenamiento. Experimentos exhaustivos en cinco benchmarks demuestran que nuestro marco supera al DPT en precisión. Este trabajo subraya la importancia de equilibrar el diseño del modelo y la calidad de los datos para lograr una estimación de profundidad zero-shot eficiente y generalizable. Código: https://github.com/AIGeeksGroup/AnyDepth. Sitio web: https://aigeeksgroup.github.io/AnyDepth.
English
Monocular depth estimation aims to recover the depth information of 3D scenes from 2D images. Recent work has made significant progress, but its reliance on large-scale datasets and complex decoders has limited its efficiency and generalization ability. In this paper, we propose a lightweight and data-centric framework for zero-shot monocular depth estimation. We first adopt DINOv3 as the visual encoder to obtain high-quality dense features. Secondly, to address the inherent drawbacks of the complex structure of the DPT, we design the Simple Depth Transformer (SDT), a compact transformer-based decoder. Compared to the DPT, it uses a single-path feature fusion and upsampling process to reduce the computational overhead of cross-scale feature fusion, achieving higher accuracy while reducing the number of parameters by approximately 85%-89%. Furthermore, we propose a quality-based filtering strategy to filter out harmful samples, thereby reducing dataset size while improving overall training quality. Extensive experiments on five benchmarks demonstrate that our framework surpasses the DPT in accuracy. This work highlights the importance of balancing model design and data quality for achieving efficient and generalizable zero-shot depth estimation. Code: https://github.com/AIGeeksGroup/AnyDepth. Website: https://aigeeksgroup.github.io/AnyDepth.
PDF41January 13, 2026