ChatPaper.aiChatPaper

AerialMegaDepth: Apprendimento della Ricostruzione Aerea-Terrestre e Sintesi della Vista

AerialMegaDepth: Learning Aerial-Ground Reconstruction and View Synthesis

April 17, 2025
Autori: Khiem Vuong, Anurag Ghosh, Deva Ramanan, Srinivasa Narasimhan, Shubham Tulsiani
cs.AI

Abstract

Esploriamo il compito della ricostruzione geometrica di immagini acquisite da una miscela di viste terrestri e aeree. Gli attuali approcci basati sull'apprendimento di stato dell'arte non riescono a gestire l'estrema variazione del punto di vista tra coppie di immagini aeree-terrestri. La nostra ipotesi è che la mancanza di dataset di alta qualità e co-registrati di immagini aeree-terrestri per l'addestramento sia una ragione chiave di questo fallimento. Tali dati sono difficili da assemblare proprio perché è difficile ricostruirli in modo scalabile. Per superare questa sfida, proponiamo un framework scalabile che combina rendering pseudo-sintetici da mesh 3D di intere città (ad esempio, Google Earth) con immagini reali a livello del terreno raccolte in modo crowdsourced (ad esempio, MegaDepth). I dati pseudo-sintetici simulano un'ampia gamma di punti di vista aerei, mentre le immagini reali raccolte in modo crowdsourced aiutano a migliorare la fedeltà visiva per le immagini a livello del terreno dove i rendering basati su mesh mancano di dettagli sufficienti, colmando efficacemente il divario di dominio tra immagini reali e rendering pseudo-sintetici. Utilizzando questo dataset ibrido, ottimizziamo diversi algoritmi di stato dell'arte e otteniamo miglioramenti significativi su compiti reali di tipo zero-shot aereo-terrestre. Ad esempio, osserviamo che il baseline DUSt3R localizza meno del 5% delle coppie aeree-terrestri entro 5 gradi di errore di rotazione della fotocamera, mentre l'ottimizzazione con i nostri dati aumenta l'accuratezza a quasi il 56%, affrontando un punto di fallimento principale nella gestione di grandi cambiamenti del punto di vista. Oltre alla stima della fotocamera e alla ricostruzione della scena, il nostro dataset migliora anche le prestazioni su compiti downstream come la sintesi di nuove viste in scenari aerei-terrestri impegnativi, dimostrando il valore pratico del nostro approccio in applicazioni reali.
English
We explore the task of geometric reconstruction of images captured from a mixture of ground and aerial views. Current state-of-the-art learning-based approaches fail to handle the extreme viewpoint variation between aerial-ground image pairs. Our hypothesis is that the lack of high-quality, co-registered aerial-ground datasets for training is a key reason for this failure. Such data is difficult to assemble precisely because it is difficult to reconstruct in a scalable way. To overcome this challenge, we propose a scalable framework combining pseudo-synthetic renderings from 3D city-wide meshes (e.g., Google Earth) with real, ground-level crowd-sourced images (e.g., MegaDepth). The pseudo-synthetic data simulates a wide range of aerial viewpoints, while the real, crowd-sourced images help improve visual fidelity for ground-level images where mesh-based renderings lack sufficient detail, effectively bridging the domain gap between real images and pseudo-synthetic renderings. Using this hybrid dataset, we fine-tune several state-of-the-art algorithms and achieve significant improvements on real-world, zero-shot aerial-ground tasks. For example, we observe that baseline DUSt3R localizes fewer than 5% of aerial-ground pairs within 5 degrees of camera rotation error, while fine-tuning with our data raises accuracy to nearly 56%, addressing a major failure point in handling large viewpoint changes. Beyond camera estimation and scene reconstruction, our dataset also improves performance on downstream tasks like novel-view synthesis in challenging aerial-ground scenarios, demonstrating the practical value of our approach in real-world applications.

Summary

AI-Generated Summary

PDF202April 21, 2025