DA^2: Diepte Alles in Elke Richting
DA^2: Depth Anything in Any Direction
September 30, 2025
Auteurs: Haodong Li, Wangguangdong Zheng, Jing He, Yuhao Liu, Xin Lin, Xin Yang, Ying-Cong Chen, Chunchao Guo
cs.AI
Samenvatting
Panorama heeft een volledig gezichtsveld (FoV) van 360°×180°, wat een completere visuele beschrijving biedt dan perspectiefbeelden. Dankzij deze eigenschap krijgt panoramische diepteschatting steeds meer aandacht in 3D-visie. Echter, vanwege de schaarste aan panoramische data zijn eerdere methoden vaak beperkt tot in-domein instellingen, wat leidt tot slechte zero-shot generalisatie. Bovendien vertrouwen veel benaderingen vanwege de inherente sferische vervormingen in panorama's op perspectiefsplitsing (bijv. kubuskaarten), wat resulteert in suboptimale efficiëntie. Om deze uitdagingen aan te pakken, stellen we DA² voor: Depth Anything in Any Direction, een nauwkeurige, zero-shot generaliseerbare en volledig end-to-end panoramische diepteschatter. Specifiek introduceren we, om panoramische data op te schalen, een data-curatie-engine voor het genereren van hoogwaardige panoramische dieptedata vanuit perspectief, en creëren we ~543K panoramische RGB-diepteparen, wat het totaal op ~607K brengt. Om de sferische vervormingen verder te verminderen, presenteren we SphereViT, dat expliciet gebruikmaakt van sferische coördinaten om de sferische geometrische consistentie in panoramische beeldkenmerken te handhaven, wat resulteert in verbeterde prestaties. Een uitgebreide benchmark op meerdere datasets toont duidelijk de state-of-the-art prestaties van DA² aan, met een gemiddelde verbetering van 38% op AbsRel ten opzichte van de sterkste zero-shot baseline. Verrassend genoeg overtreft DA² zelfs eerdere in-domein methoden, wat zijn superieure zero-shot generalisatie benadrukt. Bovendien, als een end-to-end oplossing, vertoont DA² een veel hogere efficiëntie in vergelijking met fusiegebaseerde benaderingen. Zowel de code als de gecureerde panoramische data zullen worden vrijgegeven. Projectpagina: https://depth-any-in-any-dir.github.io/.
English
Panorama has a full FoV (360^circtimes180^circ), offering a more
complete visual description than perspective images. Thanks to this
characteristic, panoramic depth estimation is gaining increasing traction in 3D
vision. However, due to the scarcity of panoramic data, previous methods are
often restricted to in-domain settings, leading to poor zero-shot
generalization. Furthermore, due to the spherical distortions inherent in
panoramas, many approaches rely on perspective splitting (e.g., cubemaps),
which leads to suboptimal efficiency. To address these challenges, we propose
DA^{2}: Depth Anything in
Any Direction, an accurate, zero-shot generalizable, and
fully end-to-end panoramic depth estimator. Specifically, for scaling up
panoramic data, we introduce a data curation engine for generating high-quality
panoramic depth data from perspective, and create sim543K panoramic
RGB-depth pairs, bringing the total to sim607K. To further mitigate the
spherical distortions, we present SphereViT, which explicitly leverages
spherical coordinates to enforce the spherical geometric consistency in
panoramic image features, yielding improved performance. A comprehensive
benchmark on multiple datasets clearly demonstrates DA^{2}'s SoTA
performance, with an average 38% improvement on AbsRel over the strongest
zero-shot baseline. Surprisingly, DA^{2} even outperforms prior in-domain
methods, highlighting its superior zero-shot generalization. Moreover, as an
end-to-end solution, DA^{2} exhibits much higher efficiency over fusion-based
approaches. Both the code and the curated panoramic data will be released.
Project page: https://depth-any-in-any-dir.github.io/.