Profundidad en Panoramas Cualesquiera: Un Modelo Fundamental para la Estimación de Profundidad Panorámica
Depth Any Panoramas: A Foundation Model for Panoramic Depth Estimation
December 18, 2025
Autores: Xin Lin, Meixi Song, Dizhe Zhang, Wenxuan Lu, Haodong Li, Bo Du, Ming-Hsuan Yang, Truong Nguyen, Lu Qi
cs.AI
Resumen
En este trabajo, presentamos un modelo fundacional de profundidad métrica panorámica que generaliza a través de diversas distancias de escena. Exploramos un paradigma de datos en bucle desde la perspectiva tanto de la construcción de datos como del diseño del marco de trabajo. Recopilamos un conjunto de datos a gran escala combinando conjuntos de datos públicos, datos sintéticos de alta calidad de nuestro simulador UE5 y modelos de texto a imagen, e imágenes panorámicas reales de la web. Para reducir las brechas de dominio entre datos interiores/exteriores y sintéticos/reales, introducimos una pipeline de curación de pseudoetiquetas en tres etapas para generar una referencia confiable para imágenes no etiquetadas. Para el modelo, adoptamos DINOv3-Large como columna vertebral por su fuerte generalización preentrenada, e introducimos una cabezal de máscara de rango plug-and-play, una optimización centrada en la nitidez y una optimización centrada en la geometría para mejorar la robustez a distancias variables y hacer cumplir la coherencia geométrica entre vistas. Los experimentos en múltiples benchmarks (por ejemplo, Stanford2D3D, Matterport3D y Deep360) demuestran un rendimiento sólido y una generalización zero-shot, con predicciones métricas particularmente robustas y estables en diversas escenas del mundo real. La página del proyecto se puede encontrar en: https://insta360-research-team.github.io/DAP_website/
English
In this work, we present a panoramic metric depth foundation model that generalizes across diverse scene distances. We explore a data-in-the-loop paradigm from the view of both data construction and framework design. We collect a large-scale dataset by combining public datasets, high-quality synthetic data from our UE5 simulator and text-to-image models, and real panoramic images from the web. To reduce domain gaps between indoor/outdoor and synthetic/real data, we introduce a three-stage pseudo-label curation pipeline to generate reliable ground truth for unlabeled images. For the model, we adopt DINOv3-Large as the backbone for its strong pre-trained generalization, and introduce a plug-and-play range mask head, sharpness-centric optimization, and geometry-centric optimization to improve robustness to varying distances and enforce geometric consistency across views. Experiments on multiple benchmarks (e.g., Stanford2D3D, Matterport3D, and Deep360) demonstrate strong performance and zero-shot generalization, with particularly robust and stable metric predictions in diverse real-world scenes. The project page can be found at: https://insta360-research-team.github.io/DAP_website/ {https://insta360-research-team.github.io/DAP\_website/}