AerialMegaDepth: Aprendizado de Reconstrução Aérea-Terrestre e Síntese de Visão
AerialMegaDepth: Learning Aerial-Ground Reconstruction and View Synthesis
April 17, 2025
Autores: Khiem Vuong, Anurag Ghosh, Deva Ramanan, Srinivasa Narasimhan, Shubham Tulsiani
cs.AI
Resumo
Exploramos a tarefa de reconstrução geométrica de imagens capturadas a partir de uma mistura de visões terrestres e aéreas. As abordagens atuais baseadas em aprendizado de última geração falham em lidar com a extrema variação de ponto de vista entre pares de imagens aéreas e terrestres. Nossa hipótese é que a falta de conjuntos de dados de alta qualidade e co-registrados de imagens aéreas e terrestres para treinamento é uma razão fundamental para essa falha. Esses dados são difíceis de montar precisamente porque é difícil reconstruí-los de forma escalável. Para superar esse desafio, propomos uma estrutura escalável que combina renderizações pseudo-sintéticas a partir de malhas 3D de cidades inteiras (por exemplo, Google Earth) com imagens reais de nível terrestre obtidas de forma colaborativa (por exemplo, MegaDepth). Os dados pseudo-sintéticos simulam uma ampla gama de pontos de vista aéreos, enquanto as imagens reais obtidas de forma colaborativa ajudam a melhorar a fidelidade visual para imagens de nível terrestre onde as renderizações baseadas em malhas carecem de detalhes suficientes, efetivamente preenchendo a lacuna de domínio entre imagens reais e renderizações pseudo-sintéticas. Usando esse conjunto de dados híbrido, ajustamos finamente vários algoritmos de última geração e alcançamos melhorias significativas em tarefas reais de generalização zero-shot entre imagens aéreas e terrestres. Por exemplo, observamos que a linha de base DUSt3R localiza menos de 5% dos pares aéreos-terrestres dentro de 5 graus de erro de rotação da câmera, enquanto o ajuste fino com nossos dados aumenta a precisão para quase 56%, abordando um ponto crítico de falha no tratamento de grandes mudanças de ponto de vista. Além da estimativa da câmera e da reconstrução de cenas, nosso conjunto de dados também melhora o desempenho em tarefas subsequentes, como a síntese de novas visões em cenários desafiadores de imagens aéreas e terrestres, demonstrando o valor prático de nossa abordagem em aplicações do mundo real.
English
We explore the task of geometric reconstruction of images captured from a
mixture of ground and aerial views. Current state-of-the-art learning-based
approaches fail to handle the extreme viewpoint variation between aerial-ground
image pairs. Our hypothesis is that the lack of high-quality, co-registered
aerial-ground datasets for training is a key reason for this failure. Such data
is difficult to assemble precisely because it is difficult to reconstruct in a
scalable way. To overcome this challenge, we propose a scalable framework
combining pseudo-synthetic renderings from 3D city-wide meshes (e.g., Google
Earth) with real, ground-level crowd-sourced images (e.g., MegaDepth). The
pseudo-synthetic data simulates a wide range of aerial viewpoints, while the
real, crowd-sourced images help improve visual fidelity for ground-level images
where mesh-based renderings lack sufficient detail, effectively bridging the
domain gap between real images and pseudo-synthetic renderings. Using this
hybrid dataset, we fine-tune several state-of-the-art algorithms and achieve
significant improvements on real-world, zero-shot aerial-ground tasks. For
example, we observe that baseline DUSt3R localizes fewer than 5% of
aerial-ground pairs within 5 degrees of camera rotation error, while
fine-tuning with our data raises accuracy to nearly 56%, addressing a major
failure point in handling large viewpoint changes. Beyond camera estimation and
scene reconstruction, our dataset also improves performance on downstream tasks
like novel-view synthesis in challenging aerial-ground scenarios, demonstrating
the practical value of our approach in real-world applications.Summary
AI-Generated Summary