ChatPaper.aiChatPaper

Depth Any Panoramas: Een Fundamentmodel voor Panoramische Diepteschatting

Depth Any Panoramas: A Foundation Model for Panoramic Depth Estimation

December 18, 2025
Auteurs: Xin Lin, Meixi Song, Dizhe Zhang, Wenxuan Lu, Haodong Li, Bo Du, Ming-Hsuan Yang, Truong Nguyen, Lu Qi
cs.AI

Samenvatting

In dit werk presenteren wij een panoramisch metrisch dieptefoundation-model dat generaliseert over diverse scène-afstanden. Wij onderzoeken een data-in-the-loop-paradigma vanuit het perspectief van zowel dataconstructie als frameworkontwerp. Wij verzamelen een grootschalige dataset door publieke datasets te combineren, hoogwaardige synthetische data van onze UE5-simulator en text-to-image-modellen, en echte panoramische afbeeldingen van het web. Om domeinkloven tussen binnen/buiten en synthetische/echte data te verkleinen, introduceren wij een driedelig pseudo-label-curatiepipeline om betrouwbare grondwaarheden te genereren voor ongelabelde afbeeldingen. Voor het model nemen wij DINOv3-Large als backbone vanwege de sterke vooraf getrainde generalisatie, en introduceren wij een plug-and-play range mask-head, een scherpte-gecentreerde optimalisatie en een geometrie-gecentreerde optimalisatie om de robuustheid voor variërende afstanden te verbeteren en geometrische consistentie tussen viewpoints af te dwingen. Experimenten op meerdere benchmarks (bijvoorbeeld Stanford2D3D, Matterport3D en Deep360) tonen sterke prestaties en zero-shot-generalizatie aan, met bijzonder robuuste en stabiele metrische voorspellingen in diverse real-world scènes. De projectpagina is te vinden op: https://insta360-research-team.github.io/DAP_website/ {https://insta360-research-team.github.io/DAP\_website/}
English
In this work, we present a panoramic metric depth foundation model that generalizes across diverse scene distances. We explore a data-in-the-loop paradigm from the view of both data construction and framework design. We collect a large-scale dataset by combining public datasets, high-quality synthetic data from our UE5 simulator and text-to-image models, and real panoramic images from the web. To reduce domain gaps between indoor/outdoor and synthetic/real data, we introduce a three-stage pseudo-label curation pipeline to generate reliable ground truth for unlabeled images. For the model, we adopt DINOv3-Large as the backbone for its strong pre-trained generalization, and introduce a plug-and-play range mask head, sharpness-centric optimization, and geometry-centric optimization to improve robustness to varying distances and enforce geometric consistency across views. Experiments on multiple benchmarks (e.g., Stanford2D3D, Matterport3D, and Deep360) demonstrate strong performance and zero-shot generalization, with particularly robust and stable metric predictions in diverse real-world scenes. The project page can be found at: https://insta360-research-team.github.io/DAP_website/ {https://insta360-research-team.github.io/DAP\_website/}
PDF332December 31, 2025