Profundidade em Panoramas Qualquer: Um Modelo Base para Estimativa de Profundidade Panorâmica

Resumo

Neste trabalho, apresentamos um modelo de fundação para profundidade métrica panorâmica que generaliza diversas distâncias de cena. Exploramos um paradigma de dados em loop tanto sob a perspectiva da construção de dados quanto do desenho da arquitetura. Reunimos um conjunto de dados em larga escala combinando conjuntos de dados públicos, dados sintéticos de alta qualidade do nosso simulador UE5 e modelos de texto-para-imagem, e imagens panorâmicas reais da web. Para reduzir as diferenças de domínio entre dados internos/externos e sintéticos/reais, introduzimos um pipeline de curadoria de pseudo-rótulos em três estágios para gerar ground truth confiável para imagens não rotuladas. Para o modelo, adotamos o DINOv3-Large como backbone devido à sua forte generalização pré-treinada, e introduzimos um cabeçalho de máscara de alcance plug-and-play, uma otimização centrada em nitidez e uma otimização centrada em geometria para melhorar a robustez a distâncias variáveis e impor consistência geométrica entre diferentes vistas. Experimentos em múltiplos benchmarks (por exemplo, Stanford2D3D, Matterport3D e Deep360) demonstram um desempenho forte e generalização zero-shot, com previsões métricas particularmente robustas e estáveis em diversas cenas do mundo real. A página do projeto pode ser encontrada em: https://insta360-research-team.github.io/DAP_website/ {https://insta360-research-team.github.io/DAP\_website/}

English

In this work, we present a panoramic metric depth foundation model that generalizes across diverse scene distances. We explore a data-in-the-loop paradigm from the view of both data construction and framework design. We collect a large-scale dataset by combining public datasets, high-quality synthetic data from our UE5 simulator and text-to-image models, and real panoramic images from the web. To reduce domain gaps between indoor/outdoor and synthetic/real data, we introduce a three-stage pseudo-label curation pipeline to generate reliable ground truth for unlabeled images. For the model, we adopt DINOv3-Large as the backbone for its strong pre-trained generalization, and introduce a plug-and-play range mask head, sharpness-centric optimization, and geometry-centric optimization to improve robustness to varying distances and enforce geometric consistency across views. Experiments on multiple benchmarks (e.g., Stanford2D3D, Matterport3D, and Deep360) demonstrate strong performance and zero-shot generalization, with particularly robust and stable metric predictions in diverse real-world scenes. The project page can be found at: https://insta360-research-team.github.io/DAP_website/ {https://insta360-research-team.github.io/DAP\_website/}

Profundidade em Panoramas Qualquer: Um Modelo Base para Estimativa de Profundidade Panorâmica

Depth Any Panoramas: A Foundation Model for Panoramic Depth Estimation

Resumo

Support