Adaptación de Dominio Basada en OSM para VLM de Teledetección
OSM-based Domain Adaptation for Remote Sensing VLMs
March 12, 2026
Autores: Stefan Maria Ailuro, Mario Markov, Mohammad Mahdi, Delyan Boychev, Luc Van Gool, Danda Pani Paudel
cs.AI
Resumen
Los Modelos de Visión-Lenguaje (VLM) adaptados a la teledetección dependen en gran medida de la supervisión imagen-texto específica del dominio; sin embargo, las anotaciones de alta calidad para imágenes de satélite y aéreas siguen siendo escasas y costosas de producir. Los flujos de trabajo predominantes de pseudoetiquetado abordan esta brecha destilando conocimiento de grandes modelos de frontera, pero esta dependencia de grandes modelos "maestros" es costosa, limita la escalabilidad y establece un techo de rendimiento en el nivel del modelo maestro. Proponemos OSMDA: un marco de adaptación de dominio autónomo que elimina esta dependencia. Nuestra idea clave es que un VLM base competente puede servir como su propio motor de anotación: al emparejar imágenes aéreas con teselas renderizadas de OpenStreetMap (OSM), aprovechamos las capacidades de reconocimiento óptico de caracteres y comprensión de gráficos del modelo para generar descripciones enriquecidas con los vastos metadatos auxiliares de OSM. Luego, el modelo se ajusta finamente sobre el corpus resultante utilizando únicamente imágenes de satélite, dando lugar a OSMDA-VLM, un VLM adaptado al dominio que no requiere etiquetado manual ni modelos externos más potentes. Realizamos evaluaciones exhaustivas que abarcan 10 puntos de referencia en tareas de imagen-texto-a-texto y comparamos con 9 líneas base competitivas. Cuando se mezcla equitativamente con datos reales, nuestro método logra resultados de vanguardia, siendo sustancialmente más económico de entrenar que las alternativas dependientes de un modelo maestro. Estos resultados sugieren que, dado un modelo base sólido, la alineación con datos geográficos de origen colectivo es un camino práctico y escalable hacia la adaptación de dominio en teledetección. El conjunto de datos y los pesos del modelo se pondrán a disposición pública.
English
Vision-Language Models (VLMs) adapted to remote sensing rely heavily on domain-specific image-text supervision, yet high-quality annotations for satellite and aerial imagery remain scarce and expensive to produce. Prevailing pseudo-labeling pipelines address this gap by distilling knowledge from large frontier models, but this dependence on large teachers is costly, limits scalability, and caps achievable performance at the ceiling of the teacher. We propose OSMDA: a self-contained domain adaptation framework that eliminates this dependency. Our key insight is that a capable base VLM can serve as its own annotation engine: by pairing aerial images with rendered OpenStreetMap (OSM) tiles, we leverage optical character recognition and chart comprehension capabilities of the model to generate captions enriched by OSM's vast auxiliary metadata. The model is then fine-tuned on the resulting corpus with satellite imagery alone, yielding OSMDA-VLM, a domain-adapted VLM that requires no manual labeling and no stronger external model. We conduct exhaustive evaluations spanning 10 benchmarks across image-text-to-text tasks and comparing against 9 competitive baselines. When equally mixed with real data, our method achieves state-of-the-art results, while being substantially cheaper to train than teacher-dependent alternatives. These results suggest that, given a strong foundation model, alignment with crowd-sourced geographic data is a practical and scalable path towards remote sensing domain adaptation. Dataset and model weights will be made publicly available.