ChatPaper.aiChatPaper

AerialMegaDepth: 항공-지면 재구성 및 시점 합성 학습

AerialMegaDepth: Learning Aerial-Ground Reconstruction and View Synthesis

April 17, 2025
저자: Khiem Vuong, Anurag Ghosh, Deva Ramanan, Srinivasa Narasimhan, Shubham Tulsiani
cs.AI

초록

지상 및 항공 뷰가 혼합된 이미지의 기하학적 재구성 작업을 탐구합니다. 현재 최첨단 학습 기반 접근법은 항공-지상 이미지 쌍 간의 극단적인 시점 변화를 처리하지 못합니다. 우리는 이러한 실패의 주요 원인이 고품질의 동기화된 항공-지상 데이터셋의 부재라고 가정합니다. 이러한 데이터는 확장 가능한 방식으로 재구성하기 어렵기 때문에 수집하기가 어렵습니다. 이 문제를 극복하기 위해, 우리는 3D 도시 전체 메시(예: Google Earth)에서의 가상 합성 렌더링과 실제 지상 크라우드소싱 이미지(예: MegaDepth)를 결합한 확장 가능한 프레임워크를 제안합니다. 가상 합성 데이터는 다양한 항공 시점을 시뮬레이션하고, 실제 크라우드소싱 이미지는 메시 기반 렌더링이 충분한 디테일을 제공하지 못하는 지상 이미지의 시각적 충실도를 개선하여, 실제 이미지와 가상 합성 렌더링 간의 도메인 격차를 효과적으로 해소합니다. 이 하이브리드 데이터셋을 사용하여 여러 최첨단 알고리즘을 미세 조정하고, 실제 세계의 제로샷 항공-지상 작업에서 상당한 개선을 달성합니다. 예를 들어, 기준선 DUSt3R은 5도 이내의 카메라 회전 오차로 항공-지상 쌍의 5% 미만을 정확히 위치시키는 반면, 우리의 데이터로 미세 조정하면 정확도가 거의 56%로 향상되어, 큰 시점 변화를 처리하는 주요 실패 지점을 해결합니다. 카메라 추정 및 장면 재구성 외에도, 우리의 데이터셋은 도전적인 항공-지상 시나리오에서의 새로운 뷰 합성과 같은 하위 작업의 성능도 개선하여, 실제 응용 프로그램에서 우리 접근법의 실용적 가치를 입증합니다.
English
We explore the task of geometric reconstruction of images captured from a mixture of ground and aerial views. Current state-of-the-art learning-based approaches fail to handle the extreme viewpoint variation between aerial-ground image pairs. Our hypothesis is that the lack of high-quality, co-registered aerial-ground datasets for training is a key reason for this failure. Such data is difficult to assemble precisely because it is difficult to reconstruct in a scalable way. To overcome this challenge, we propose a scalable framework combining pseudo-synthetic renderings from 3D city-wide meshes (e.g., Google Earth) with real, ground-level crowd-sourced images (e.g., MegaDepth). The pseudo-synthetic data simulates a wide range of aerial viewpoints, while the real, crowd-sourced images help improve visual fidelity for ground-level images where mesh-based renderings lack sufficient detail, effectively bridging the domain gap between real images and pseudo-synthetic renderings. Using this hybrid dataset, we fine-tune several state-of-the-art algorithms and achieve significant improvements on real-world, zero-shot aerial-ground tasks. For example, we observe that baseline DUSt3R localizes fewer than 5% of aerial-ground pairs within 5 degrees of camera rotation error, while fine-tuning with our data raises accuracy to nearly 56%, addressing a major failure point in handling large viewpoint changes. Beyond camera estimation and scene reconstruction, our dataset also improves performance on downstream tasks like novel-view synthesis in challenging aerial-ground scenarios, demonstrating the practical value of our approach in real-world applications.

Summary

AI-Generated Summary

PDF202April 21, 2025