AnyDepth: Estimativa de Profundidade Simplificada

Resumo

A estimação de profundidade monocular visa recuperar a informação de profundidade de cenas 3D a partir de imagens 2D. Trabalhos recentes têm feito progressos significativos, mas a sua dependência de conjuntos de dados de grande escala e decodificadores complexos tem limitado a sua eficiência e capacidade de generalização. Neste artigo, propomos uma estrutura leve e centrada em dados para estimação de profundidade monocular *zero-shot*. Primeiro, adotamos o DINOv3 como codificador visual para obter características densas de alta qualidade. Em segundo lugar, para superar as desvantagens inerentes à estrutura complexa do DPT, concebemos o *Simple Depth Transformer* (SDT), um decodificador compacto baseado em *transformers*. Em comparação com o DPT, ele utiliza um processo de fusão de características e *upsampling* de caminho único para reduzir a sobrecarga computacional da fusão de características multi-escala, alcançando maior precisão enquanto reduz o número de parâmetros em aproximadamente 85%-89%. Além disso, propomos uma estratégia de filtragem baseada em qualidade para filtrar amostras prejudiciais, reduzindo assim o tamanho do conjunto de dados enquanto melhora a qualidade geral do treinamento. Experimentos extensivos em cinco *benchmarks* demonstram que a nossa estrutura supera o DPT em precisão. Este trabalho destaca a importância de equilibrar o design do modelo e a qualidade dos dados para alcançar uma estimação de profundidade *zero-shot* eficiente e generalizável. Código: https://github.com/AIGeeksGroup/AnyDepth. Website: https://aigeeksgroup.github.io/AnyDepth.

English

Monocular depth estimation aims to recover the depth information of 3D scenes from 2D images. Recent work has made significant progress, but its reliance on large-scale datasets and complex decoders has limited its efficiency and generalization ability. In this paper, we propose a lightweight and data-centric framework for zero-shot monocular depth estimation. We first adopt DINOv3 as the visual encoder to obtain high-quality dense features. Secondly, to address the inherent drawbacks of the complex structure of the DPT, we design the Simple Depth Transformer (SDT), a compact transformer-based decoder. Compared to the DPT, it uses a single-path feature fusion and upsampling process to reduce the computational overhead of cross-scale feature fusion, achieving higher accuracy while reducing the number of parameters by approximately 85%-89%. Furthermore, we propose a quality-based filtering strategy to filter out harmful samples, thereby reducing dataset size while improving overall training quality. Extensive experiments on five benchmarks demonstrate that our framework surpasses the DPT in accuracy. This work highlights the importance of balancing model design and data quality for achieving efficient and generalizable zero-shot depth estimation. Code: https://github.com/AIGeeksGroup/AnyDepth. Website: https://aigeeksgroup.github.io/AnyDepth.

AnyDepth: Estimativa de Profundidade Simplificada

AnyDepth: Depth Estimation Made Easy

Resumo

Support