Profondeur des Panoramas Universels : Un Modèle Fondamental pour l'Estimation de la Profondeur Panoramique
Depth Any Panoramas: A Foundation Model for Panoramic Depth Estimation
December 18, 2025
papers.authors: Xin Lin, Meixi Song, Dizhe Zhang, Wenxuan Lu, Haodong Li, Bo Du, Ming-Hsuan Yang, Truong Nguyen, Lu Qi
cs.AI
papers.abstract
Dans ce travail, nous présentons un modèle fondamental de métrique de profondeur panoramique qui généralise à travers diverses distances de scène. Nous explorons un paradigme de données en boucle fermée du point de vue de la construction des données et de la conception du cadre. Nous collectons un jeu de données à grande échelle en combinant des ensembles de données publics, des données synthétiques de haute qualité provenant de notre simulateur UE5 et de modèles texte-image, ainsi que des images panoramiques réelles provenant du web. Pour réduire les écarts de domaine entre les données intérieur/extérieur et synthétiques/réelles, nous introduisons un pipeline de curation d'étiquettes pseudo en trois étapes pour générer une vérité terrain fiable pour les images non étiquetées. Pour le modèle, nous adoptons DINOv3-Large comme architecture de base pour sa forte généralisation pré-entraînée, et nous introduisons une tête de masque de plage prête à l'emploi, une optimisation axée sur la netteté et une optimisation axée sur la géométrie pour améliorer la robustesse aux distances variables et renforcer la cohérence géométrique entre les vues. Les expériences sur plusieurs benchmarks (par exemple, Stanford2D3D, Matterport3D et Deep360) démontrent des performances solides et une généralisation zero-shot, avec des prédictions métriques particulièrement robustes et stables dans diverses scènes du monde réel. La page du projet peut être consultée à l'adresse : https://insta360-research-team.github.io/DAP_website/
English
In this work, we present a panoramic metric depth foundation model that generalizes across diverse scene distances. We explore a data-in-the-loop paradigm from the view of both data construction and framework design. We collect a large-scale dataset by combining public datasets, high-quality synthetic data from our UE5 simulator and text-to-image models, and real panoramic images from the web. To reduce domain gaps between indoor/outdoor and synthetic/real data, we introduce a three-stage pseudo-label curation pipeline to generate reliable ground truth for unlabeled images. For the model, we adopt DINOv3-Large as the backbone for its strong pre-trained generalization, and introduce a plug-and-play range mask head, sharpness-centric optimization, and geometry-centric optimization to improve robustness to varying distances and enforce geometric consistency across views. Experiments on multiple benchmarks (e.g., Stanford2D3D, Matterport3D, and Deep360) demonstrate strong performance and zero-shot generalization, with particularly robust and stable metric predictions in diverse real-world scenes. The project page can be found at: https://insta360-research-team.github.io/DAP_website/ {https://insta360-research-team.github.io/DAP\_website/}