Adaptação de Domínio Baseada em OSM para VLMs de Sensoriamento Remoto

Resumo

Os Modelos de Visão-Linguagem (VLMs) adaptados para sensoriamento remoto dependem fortemente de supervisão imagem-texto específica do domínio, no entanto, anotações de alta qualidade para imagens de satélite e aéreas permanecem escassas e caras para produzir. Os *pipelines* de pseudo-rotulação predominantes abordam essa lacuna destilando conhecimento de grandes modelos de fronteira, mas essa dependência de grandes modelos "professores" é custosa, limita a escalabilidade e restringe o desempenho máximo alcançável ao teto do modelo professor. Propomos o OSMDA: uma estrutura de adaptação de domínio autossuficiente que elimina essa dependência. Nossa principal percepção é que um VLM base capaz pode servir como seu próprio mecanismo de anotação: ao emparelhar imagens aéreas com *tiles* renderizados do OpenStreetMap (OSM), aproveitamos as capacidades de reconhecimento óptico de caracteres e compreensão de gráficos do modelo para gerar legendas enriquecidas pelos vastos metadados auxiliares do OSM. O modelo é então ajustado (*fine-tuned*) no corpus resultante usando apenas imagens de satélite, produzindo o OSMDA-VLM, um VLM adaptado ao domínio que não requer rotulagem manual nem um modelo externo mais forte. Realizamos avaliações exaustivas abrangendo 10 *benchmarks* em tarefas de imagem-texto-para-texto e comparamos com 9 linhas de base competitivas. Quando igualmente misturado com dados reais, nosso método alcança resultados de última geração (*state-of-the-art*), sendo substancialmente mais barato de treinar do que alternativas dependentes de modelos professores. Esses resultados sugerem que, dado um modelo de base forte, o alinhamento com dados geográficos de *crowdsourcing* é um caminho prático e escalável para a adaptação de domínio em sensoriamento remoto. O conjunto de dados e os pesos do modelo serão disponibilizados publicamente.

English

Vision-Language Models (VLMs) adapted to remote sensing rely heavily on domain-specific image-text supervision, yet high-quality annotations for satellite and aerial imagery remain scarce and expensive to produce. Prevailing pseudo-labeling pipelines address this gap by distilling knowledge from large frontier models, but this dependence on large teachers is costly, limits scalability, and caps achievable performance at the ceiling of the teacher. We propose OSMDA: a self-contained domain adaptation framework that eliminates this dependency. Our key insight is that a capable base VLM can serve as its own annotation engine: by pairing aerial images with rendered OpenStreetMap (OSM) tiles, we leverage optical character recognition and chart comprehension capabilities of the model to generate captions enriched by OSM's vast auxiliary metadata. The model is then fine-tuned on the resulting corpus with satellite imagery alone, yielding OSMDA-VLM, a domain-adapted VLM that requires no manual labeling and no stronger external model. We conduct exhaustive evaluations spanning 10 benchmarks across image-text-to-text tasks and comparing against 9 competitive baselines. When equally mixed with real data, our method achieves state-of-the-art results, while being substantially cheaper to train than teacher-dependent alternatives. These results suggest that, given a strong foundation model, alignment with crowd-sourced geographic data is a practical and scalable path towards remote sensing domain adaptation. Dataset and model weights will be made publicly available.

Adaptação de Domínio Baseada em OSM para VLMs de Sensoriamento Remoto

OSM-based Domain Adaptation for Remote Sensing VLMs

Resumo

Support