Depth Any Panoramas: un modello di base per la stima della profondità panoramica
Depth Any Panoramas: A Foundation Model for Panoramic Depth Estimation
December 18, 2025
Autori: Xin Lin, Meixi Song, Dizhe Zhang, Wenxuan Lu, Haodong Li, Bo Du, Ming-Hsuan Yang, Truong Nguyen, Lu Qi
cs.AI
Abstract
In questo lavoro, presentiamo un modello foundation per la stima metrica della profondità panoramica che generalizza su diverse distanze della scena. Esploriamo un paradigma di "dati nel ciclo" dal punto di vista sia della costruzione dei dati che del design del framework. Raccogliamo un dataset su larga scala combinando dataset pubblici, dati sintetici di alta qualità dal nostro simulatore UE5 e modelli text-to-image, e immagini panoramiche reali dal web. Per ridurre i divari di dominio tra dati indoor/outdoor e sintetici/reali, introduciamo una pipeline di creazione di pseudo-etichette in tre fasi per generare ground truth affidabile per immagini non etichettate. Per il modello, adottiamo DINOv3-Large come backbone per la sua forte generalizzazione pre-addestrata, e introduciamo una testa plug-and-play per la maschera della distanza, un'ottimizzazione centrata sulla nitidezza e un'ottimizzazione centrata sulla geometria per migliorare la robustezza alle distanze variabili e imporre la coerenza geometrica tra le viste. Esperimenti su molteplici benchmark (ad esempio, Stanford2D3D, Matterport3D e Deep360) dimostrano prestazioni solide e generalizzazione zero-shot, con previsioni metriche particolarmente robuste e stabili in diverse scene del mondo reale. La pagina del progetto può essere trovata all'indirizzo: https://insta360-research-team.github.io/DAP_website/ {https://insta360-research-team.github.io/DAP\_website/}
English
In this work, we present a panoramic metric depth foundation model that generalizes across diverse scene distances. We explore a data-in-the-loop paradigm from the view of both data construction and framework design. We collect a large-scale dataset by combining public datasets, high-quality synthetic data from our UE5 simulator and text-to-image models, and real panoramic images from the web. To reduce domain gaps between indoor/outdoor and synthetic/real data, we introduce a three-stage pseudo-label curation pipeline to generate reliable ground truth for unlabeled images. For the model, we adopt DINOv3-Large as the backbone for its strong pre-trained generalization, and introduce a plug-and-play range mask head, sharpness-centric optimization, and geometry-centric optimization to improve robustness to varying distances and enforce geometric consistency across views. Experiments on multiple benchmarks (e.g., Stanford2D3D, Matterport3D, and Deep360) demonstrate strong performance and zero-shot generalization, with particularly robust and stable metric predictions in diverse real-world scenes. The project page can be found at: https://insta360-research-team.github.io/DAP_website/ {https://insta360-research-team.github.io/DAP\_website/}