AerialMegaDepth : Apprentissage de la reconstruction aérienne-sol et de la synthèse de vues
AerialMegaDepth: Learning Aerial-Ground Reconstruction and View Synthesis
April 17, 2025
Auteurs: Khiem Vuong, Anurag Ghosh, Deva Ramanan, Srinivasa Narasimhan, Shubham Tulsiani
cs.AI
Résumé
Nous explorons la tâche de reconstruction géométrique d'images capturées à partir d'un mélange de vues au sol et aériennes. Les approches actuelles basées sur l'apprentissage ne parviennent pas à gérer la variation extrême de point de vue entre les paires d'images aériennes et au sol. Notre hypothèse est que l'absence de jeux de données de haute qualité et co-enregistrés pour l'entraînement est une raison clé de cet échec. De telles données sont difficiles à assembler précisément parce qu'il est difficile de les reconstruire de manière évolutive. Pour surmonter ce défi, nous proposons un cadre évolutif combinant des rendus pseudo-synthétiques à partir de maillages 3D de villes entières (par exemple, Google Earth) avec des images réelles au sol provenant de sources collaboratives (par exemple, MegaDepth). Les données pseudo-synthétiques simulent une large gamme de points de vue aériens, tandis que les images réelles collaboratives aident à améliorer la fidélité visuelle pour les images au sol où les rendus basés sur des maillages manquent de détails, comblant ainsi efficacement l'écart de domaine entre les images réelles et les rendus pseudo-synthétiques. En utilisant ce jeu de données hybride, nous affinons plusieurs algorithmes de pointe et obtenons des améliorations significatives sur des tâches aériennes-sol en conditions réelles et sans apprentissage préalable. Par exemple, nous observons que le modèle de base DUSt3R localise moins de 5 % des paires aériennes-sol avec une erreur de rotation de caméra inférieure à 5 degrés, tandis que l'affinage avec nos données augmente la précision à près de 56 %, résolvant ainsi un point de défaillance majeur dans la gestion des grands changements de point de vue. Au-delà de l'estimation de la caméra et de la reconstruction de scènes, notre jeu de données améliore également les performances sur des tâches en aval comme la synthèse de nouvelles vues dans des scénarios aériens-sol complexes, démontrant la valeur pratique de notre approche dans des applications réelles.
English
We explore the task of geometric reconstruction of images captured from a
mixture of ground and aerial views. Current state-of-the-art learning-based
approaches fail to handle the extreme viewpoint variation between aerial-ground
image pairs. Our hypothesis is that the lack of high-quality, co-registered
aerial-ground datasets for training is a key reason for this failure. Such data
is difficult to assemble precisely because it is difficult to reconstruct in a
scalable way. To overcome this challenge, we propose a scalable framework
combining pseudo-synthetic renderings from 3D city-wide meshes (e.g., Google
Earth) with real, ground-level crowd-sourced images (e.g., MegaDepth). The
pseudo-synthetic data simulates a wide range of aerial viewpoints, while the
real, crowd-sourced images help improve visual fidelity for ground-level images
where mesh-based renderings lack sufficient detail, effectively bridging the
domain gap between real images and pseudo-synthetic renderings. Using this
hybrid dataset, we fine-tune several state-of-the-art algorithms and achieve
significant improvements on real-world, zero-shot aerial-ground tasks. For
example, we observe that baseline DUSt3R localizes fewer than 5% of
aerial-ground pairs within 5 degrees of camera rotation error, while
fine-tuning with our data raises accuracy to nearly 56%, addressing a major
failure point in handling large viewpoint changes. Beyond camera estimation and
scene reconstruction, our dataset also improves performance on downstream tasks
like novel-view synthesis in challenging aerial-ground scenarios, demonstrating
the practical value of our approach in real-world applications.Summary
AI-Generated Summary