AerialMegaDepth: Обучение реконструкции с воздуха и синтеза видов с земли
AerialMegaDepth: Learning Aerial-Ground Reconstruction and View Synthesis
April 17, 2025
Авторы: Khiem Vuong, Anurag Ghosh, Deva Ramanan, Srinivasa Narasimhan, Shubham Tulsiani
cs.AI
Аннотация
Мы исследуем задачу геометрической реконструкции изображений, снятых с комбинации наземных и аэрофотоснимков. Современные подходы, основанные на обучении, не справляются с экстремальными вариациями точек обзора между парами аэро- и наземных изображений. Наша гипотеза заключается в том, что ключевой причиной этого является отсутствие высококачественных, совместно зарегистрированных наборов данных аэро- и наземных изображений для обучения. Такие данные сложно собрать именно потому, что их трудно реконструировать масштабируемым способом. Чтобы преодолеть эту проблему, мы предлагаем масштабируемую структуру, сочетающую псевдосинтетические рендеры из 3D-мешей городских масштабов (например, Google Earth) с реальными наземными изображениями, собранными с помощью краудсорсинга (например, MegaDepth). Псевдосинтетические данные моделируют широкий диапазон аэрофотоснимков, в то время как реальные изображения, собранные с помощью краудсорсинга, помогают улучшить визуальную достоверность для наземных изображений, где рендеры на основе мешей не обладают достаточной детализацией, эффективно устраняя разрыв между реальными изображениями и псевдосинтетическими рендерами. Используя этот гибридный набор данных, мы дообучаем несколько современных алгоритмов и достигаем значительных улучшений в реальных задачах аэро- и наземной реконструкции без предварительного обучения. Например, мы наблюдаем, что базовый алгоритм DUSt3R локализует менее 5% пар аэро- и наземных изображений с ошибкой вращения камеры менее 5 градусов, в то время как дообучение с нашими данными повышает точность до почти 56%, устраняя ключевую проблему при обработке значительных изменений точек обзора. Помимо оценки положения камеры и реконструкции сцены, наш набор данных также улучшает производительность в задачах синтеза новых видов в сложных сценариях аэро- и наземной съемки, демонстрируя практическую ценность нашего подхода в реальных приложениях.
English
We explore the task of geometric reconstruction of images captured from a
mixture of ground and aerial views. Current state-of-the-art learning-based
approaches fail to handle the extreme viewpoint variation between aerial-ground
image pairs. Our hypothesis is that the lack of high-quality, co-registered
aerial-ground datasets for training is a key reason for this failure. Such data
is difficult to assemble precisely because it is difficult to reconstruct in a
scalable way. To overcome this challenge, we propose a scalable framework
combining pseudo-synthetic renderings from 3D city-wide meshes (e.g., Google
Earth) with real, ground-level crowd-sourced images (e.g., MegaDepth). The
pseudo-synthetic data simulates a wide range of aerial viewpoints, while the
real, crowd-sourced images help improve visual fidelity for ground-level images
where mesh-based renderings lack sufficient detail, effectively bridging the
domain gap between real images and pseudo-synthetic renderings. Using this
hybrid dataset, we fine-tune several state-of-the-art algorithms and achieve
significant improvements on real-world, zero-shot aerial-ground tasks. For
example, we observe that baseline DUSt3R localizes fewer than 5% of
aerial-ground pairs within 5 degrees of camera rotation error, while
fine-tuning with our data raises accuracy to nearly 56%, addressing a major
failure point in handling large viewpoint changes. Beyond camera estimation and
scene reconstruction, our dataset also improves performance on downstream tasks
like novel-view synthesis in challenging aerial-ground scenarios, demonstrating
the practical value of our approach in real-world applications.Summary
AI-Generated Summary