ChatPaper.aiChatPaper

AerialMegaDepth: 空中-地上再構成とビュー合成の学習

AerialMegaDepth: Learning Aerial-Ground Reconstruction and View Synthesis

April 17, 2025
著者: Khiem Vuong, Anurag Ghosh, Deva Ramanan, Srinivasa Narasimhan, Shubham Tulsiani
cs.AI

要旨

地上視点と空中視点の混合で撮影された画像の幾何学的再構成タスクを探求する。現在の最先端の学習ベースのアプローチでは、空中-地上画像ペア間の極端な視点の変化に対処できない。我々の仮説は、高品質で共同登録された空中-地上データセットの訓練用データの不足が、この失敗の主要な原因であるという。そのようなデータは、スケーラブルな方法で再構成することが難しいため、組み立てることが困難である。この課題を克服するために、3D都市全体メッシュ(例:Google Earth)からの疑似合成レンダリングと、地上レベルのクラウドソーシングされた実画像(例:MegaDepth)を組み合わせたスケーラブルなフレームワークを提案する。疑似合成データは広範囲の空中視点をシミュレートし、実画像のクラウドソーシングデータは、メッシュベースのレンダリングが十分な詳細を欠く地上レベル画像の視覚的忠実度を向上させ、実画像と疑似合成レンダリングの間のドメインギャップを効果的に埋める。このハイブリッドデータセットを使用して、いくつかの最先端アルゴリズムをファインチューニングし、実世界のゼロショット空中-地上タスクで大幅な改善を達成した。例えば、ベースラインのDUSt3Rは、カメラ回転誤差5度以内で5%未満の空中-地上ペアを位置特定するが、我々のデータでファインチューニングすると精度が約56%に向上し、大きな視点変化の処理における主要な失敗点に対処する。カメラ推定とシーン再構成を超えて、我々のデータセットは、挑戦的な空中-地上シナリオでの新規視点合成などの下流タスクのパフォーマンスも向上させ、実世界のアプリケーションにおける我々のアプローチの実用的価値を示す。
English
We explore the task of geometric reconstruction of images captured from a mixture of ground and aerial views. Current state-of-the-art learning-based approaches fail to handle the extreme viewpoint variation between aerial-ground image pairs. Our hypothesis is that the lack of high-quality, co-registered aerial-ground datasets for training is a key reason for this failure. Such data is difficult to assemble precisely because it is difficult to reconstruct in a scalable way. To overcome this challenge, we propose a scalable framework combining pseudo-synthetic renderings from 3D city-wide meshes (e.g., Google Earth) with real, ground-level crowd-sourced images (e.g., MegaDepth). The pseudo-synthetic data simulates a wide range of aerial viewpoints, while the real, crowd-sourced images help improve visual fidelity for ground-level images where mesh-based renderings lack sufficient detail, effectively bridging the domain gap between real images and pseudo-synthetic renderings. Using this hybrid dataset, we fine-tune several state-of-the-art algorithms and achieve significant improvements on real-world, zero-shot aerial-ground tasks. For example, we observe that baseline DUSt3R localizes fewer than 5% of aerial-ground pairs within 5 degrees of camera rotation error, while fine-tuning with our data raises accuracy to nearly 56%, addressing a major failure point in handling large viewpoint changes. Beyond camera estimation and scene reconstruction, our dataset also improves performance on downstream tasks like novel-view synthesis in challenging aerial-ground scenarios, demonstrating the practical value of our approach in real-world applications.

Summary

AI-Generated Summary

PDF202April 21, 2025