ChatPaper.aiChatPaper

DA^2: Глубина в любом направлении

DA^2: Depth Anything in Any Direction

September 30, 2025
Авторы: Haodong Li, Wangguangdong Zheng, Jing He, Yuhao Liu, Xin Lin, Xin Yang, Ying-Cong Chen, Chunchao Guo
cs.AI

Аннотация

Panorama обладает полным полем обзора (360°×180°), предоставляя более полное визуальное описание по сравнению с перспективными изображениями. Благодаря этой характеристике, оценка глубины в панорамных изображениях становится всё более популярной в области 3D-зрения. Однако из-за ограниченности панорамных данных предыдущие методы часто ограничиваются внутридоменными настройками, что приводит к слабой обобщаемости в условиях zero-shot. Кроме того, из-за сферических искажений, присущих панорамам, многие подходы полагаются на разделение перспективы (например, кубические карты), что снижает эффективность. Для решения этих проблем мы предлагаем DA²: Depth Anything in Any Direction — точный, обобщаемый в условиях zero-shot и полностью сквозной панорамный оценщик глубины. В частности, для масштабирования панорамных данных мы представляем механизм подготовки данных для генерации высококачественных панорамных данных о глубине из перспективных изображений и создаем ~543K панорамных пар RGB-глубина, увеличивая общее количество до ~607K. Чтобы дополнительно смягчить сферические искажения, мы предлагаем SphereViT, который явно использует сферические координаты для обеспечения сферической геометрической согласованности в панорамных признаках изображений, что приводит к улучшенной производительности. Комплексное тестирование на нескольких наборах данных явно демонстрирует SoTA-производительность DA², с улучшением на 38% по метрике AbsRel по сравнению с самым сильным базовым методом zero-shot. Удивительно, но DA² даже превосходит предыдущие внутридоменные методы, подчеркивая его превосходную обобщаемость в условиях zero-shot. Более того, как сквозное решение, DA² демонстрирует значительно более высокую эффективность по сравнению с подходами, основанными на слиянии. И код, и подготовленные панорамные данные будут опубликованы. Страница проекта: https://depth-any-in-any-dir.github.io/.
English
Panorama has a full FoV (360^circtimes180^circ), offering a more complete visual description than perspective images. Thanks to this characteristic, panoramic depth estimation is gaining increasing traction in 3D vision. However, due to the scarcity of panoramic data, previous methods are often restricted to in-domain settings, leading to poor zero-shot generalization. Furthermore, due to the spherical distortions inherent in panoramas, many approaches rely on perspective splitting (e.g., cubemaps), which leads to suboptimal efficiency. To address these challenges, we propose DA^{2}: Depth Anything in Any Direction, an accurate, zero-shot generalizable, and fully end-to-end panoramic depth estimator. Specifically, for scaling up panoramic data, we introduce a data curation engine for generating high-quality panoramic depth data from perspective, and create sim543K panoramic RGB-depth pairs, bringing the total to sim607K. To further mitigate the spherical distortions, we present SphereViT, which explicitly leverages spherical coordinates to enforce the spherical geometric consistency in panoramic image features, yielding improved performance. A comprehensive benchmark on multiple datasets clearly demonstrates DA^{2}'s SoTA performance, with an average 38% improvement on AbsRel over the strongest zero-shot baseline. Surprisingly, DA^{2} even outperforms prior in-domain methods, highlighting its superior zero-shot generalization. Moreover, as an end-to-end solution, DA^{2} exhibits much higher efficiency over fusion-based approaches. Both the code and the curated panoramic data will be released. Project page: https://depth-any-in-any-dir.github.io/.
PDF111October 1, 2025