Depth Any Panoramas: Ein Grundmodell für die Panorama-Tiefenschätzung
Depth Any Panoramas: A Foundation Model for Panoramic Depth Estimation
December 18, 2025
papers.authors: Xin Lin, Meixi Song, Dizhe Zhang, Wenxuan Lu, Haodong Li, Bo Du, Ming-Hsuan Yang, Truong Nguyen, Lu Qi
cs.AI
papers.abstract
In dieser Arbeit stellen wir ein panoramisches metrisches Tiefen-Grundmodell vor, das sich über verschiedene Szenenentfernungen hinweg verallgemeinert. Wir untersuchen ein Data-in-the-Loop-Paradigma sowohl aus der Perspektive der Datenerstellung als auch des Framework-Designs. Wir erstellen einen umfangreichen Datensatz durch die Kombination öffentlicher Datensätze, hochwertiger synthetischer Daten aus unserem UE5-Simulator und Text-zu-Bild-Modellen sowie realer Panoramabilder aus dem Internet. Um Domänenlücken zwischen Innen-/Außenaufnahmen und synthetischen/realen Daten zu reduzieren, führen wir einen dreistufigen Pseudo-Label-Kuratierungsprozess ein, um zuverlässige Ground-Truth-Daten für unmarkierte Bilder zu generieren. Für das Modell verwenden wir DINOv3-Large als Backbone aufgrund seiner starken vortrainierten Generalisierungsfähigkeit und führen einen Plug-and-Play-Bereichsmaskenkopf, eine schärfenzentrierte Optimierung und eine geometriezentrierte Optimierung ein, um die Robustheit gegenüber variierenden Entfernungen zu verbessern und die geometrische Konsistenz über verschiedene Blickwinkel hinweg zu erzwingen. Experimente auf mehreren Benchmarks (z.B. Stanford2D3D, Matterport3D und Deep360) demonstrieren eine hohe Leistungsfähigkeit und Zero-Shot-Generalisierung, mit besonders robusten und stabilen metrischen Vorhersagen in verschiedenen realen Szenen. Die Projektseite ist unter folgender Adresse zu finden: https://insta360-research-team.github.io/DAP_website/ {https://insta360-research-team.github.io/DAP\_website/}
English
In this work, we present a panoramic metric depth foundation model that generalizes across diverse scene distances. We explore a data-in-the-loop paradigm from the view of both data construction and framework design. We collect a large-scale dataset by combining public datasets, high-quality synthetic data from our UE5 simulator and text-to-image models, and real panoramic images from the web. To reduce domain gaps between indoor/outdoor and synthetic/real data, we introduce a three-stage pseudo-label curation pipeline to generate reliable ground truth for unlabeled images. For the model, we adopt DINOv3-Large as the backbone for its strong pre-trained generalization, and introduce a plug-and-play range mask head, sharpness-centric optimization, and geometry-centric optimization to improve robustness to varying distances and enforce geometric consistency across views. Experiments on multiple benchmarks (e.g., Stanford2D3D, Matterport3D, and Deep360) demonstrate strong performance and zero-shot generalization, with particularly robust and stable metric predictions in diverse real-world scenes. The project page can be found at: https://insta360-research-team.github.io/DAP_website/ {https://insta360-research-team.github.io/DAP\_website/}