AerialMegaDepth: Lernen der Luft-Boden-Rekonstruktion und Ansichtssynthese
AerialMegaDepth: Learning Aerial-Ground Reconstruction and View Synthesis
April 17, 2025
Autoren: Khiem Vuong, Anurag Ghosh, Deva Ramanan, Srinivasa Narasimhan, Shubham Tulsiani
cs.AI
Zusammenfassung
Wir untersuchen die Aufgabe der geometrischen Rekonstruktion von Bildern, die aus einer Mischung von Boden- und Luftaufnahmen erfasst wurden. Derzeitige, auf maschinellem Lernen basierende Ansätze der Spitzenklasse scheitern daran, die extremen Blickwinkelvariationen zwischen Luft-Boden-Bildpaaren zu bewältigen. Unsere Hypothese ist, dass das Fehlen von hochwertigen, ko-registrierten Luft-Boden-Datensätzen für das Training ein Hauptgrund für dieses Versagen ist. Solche Daten sind schwer zusammenzustellen, da sie in skalierbarer Weise schwer zu rekonstruieren sind. Um diese Herausforderung zu bewältigen, schlagen wir ein skalierbares Framework vor, das pseudo-synthetische Renderings aus 3D-Stadtmodellen (z. B. Google Earth) mit realen, bodennahen Crowdsourcing-Bildern (z. B. MegaDepth) kombiniert. Die pseudo-synthetischen Daten simulieren eine breite Palette von Luftaufnahmeperspektiven, während die realen, Crowdsourcing-Bilder die visuelle Qualität für bodennahe Bilder verbessern, bei denen mesh-basierte Renderings an Detailtreue mangeln, und so effektiv die Domänenlücke zwischen realen Bildern und pseudo-synthetischen Renderings überbrücken. Mit diesem hybriden Datensatz feintunen wir mehrere state-of-the-art Algorithmen und erzielen signifikante Verbesserungen bei realen, Zero-Shot-Luft-Boden-Aufgaben. Beispielsweise beobachten wir, dass der Baseline-Ansatz DUSt3R weniger als 5 % der Luft-Boden-Paare innerhalb von 5 Grad Kamerarotationsfehler lokalisiert, während das Feintuning mit unseren Daten die Genauigkeit auf fast 56 % erhöht und damit einen wesentlichen Schwachpunkt bei der Handhabung großer Blickwinkeländerungen adressiert. Neben der Kameraschätzung und Szenenrekonstruktion verbessert unser Datensatz auch die Leistung bei nachgelagerten Aufgaben wie der Synthese neuer Ansichten in anspruchsvollen Luft-Boden-Szenarien, was den praktischen Nutzen unseres Ansatzes in realen Anwendungen demonstriert.
English
We explore the task of geometric reconstruction of images captured from a
mixture of ground and aerial views. Current state-of-the-art learning-based
approaches fail to handle the extreme viewpoint variation between aerial-ground
image pairs. Our hypothesis is that the lack of high-quality, co-registered
aerial-ground datasets for training is a key reason for this failure. Such data
is difficult to assemble precisely because it is difficult to reconstruct in a
scalable way. To overcome this challenge, we propose a scalable framework
combining pseudo-synthetic renderings from 3D city-wide meshes (e.g., Google
Earth) with real, ground-level crowd-sourced images (e.g., MegaDepth). The
pseudo-synthetic data simulates a wide range of aerial viewpoints, while the
real, crowd-sourced images help improve visual fidelity for ground-level images
where mesh-based renderings lack sufficient detail, effectively bridging the
domain gap between real images and pseudo-synthetic renderings. Using this
hybrid dataset, we fine-tune several state-of-the-art algorithms and achieve
significant improvements on real-world, zero-shot aerial-ground tasks. For
example, we observe that baseline DUSt3R localizes fewer than 5% of
aerial-ground pairs within 5 degrees of camera rotation error, while
fine-tuning with our data raises accuracy to nearly 56%, addressing a major
failure point in handling large viewpoint changes. Beyond camera estimation and
scene reconstruction, our dataset also improves performance on downstream tasks
like novel-view synthesis in challenging aerial-ground scenarios, demonstrating
the practical value of our approach in real-world applications.Summary
AI-Generated Summary