OSM-basierte Domänenanpassung für Fernerkundungs-VLMs
OSM-based Domain Adaptation for Remote Sensing VLMs
March 12, 2026
Autoren: Stefan Maria Ailuro, Mario Markov, Mohammad Mahdi, Delyan Boychev, Luc Van Gool, Danda Pani Paudel
cs.AI
Zusammenfassung
Vision-Language-Modelle (VLMs), die für die Fernerkundung adaptiert werden, sind stark auf domänenspezifische Bild-Text-Aufsicht angewiesen. Dennoch bleiben hochwertige Annotationen für Satelliten- und Luftbilder knapp und teuer in der Erstellung. Gängige Pseudo-Labeling-Pipelines schließen diese Lücke, indem sie Wissen aus großen Frontier-Modellen destillieren. Diese Abhängigkeit von großen Lehrermodellen ist jedoch kostspielig, limitiert die Skalierbarkeit und begrenzt die erreichbare Leistung auf das Niveau des Lehrermodells. Wir schlagen OSMDA vor: ein eigenständiges Domain-Adaptation-Framework, das diese Abhängigkeit beseitigt. Unsere zentrale Erkenntnis ist, dass ein leistungsfähiges Basis-VLM als eigene Annotation-Engine dienen kann: Indem wir Luftbilder mit gerenderten OpenStreetMap (OSM)-Kartenkacheln kombinieren, nutzen wir die optische Zeichenerkennung und das Diagrammverständnis des Modells, um Bildunterschriften zu generieren, die durch die umfangreichen Metadaten von OSM angereichert werden. Das Modell wird anschließend mit dem entstandenen Korpus und ausschließlich Satellitenbildern feinjustiert, was zu OSMDA-VLM führt – einem domain-adaptierten VLM, das weder manuelle Beschriftung noch stärkere externe Modelle benötigt. Wir führen umfassende Evaluationen durch, die 10 Benchmarks für Bild-Text-zu-Text-Aufgaben umfassen und Vergleiche mit 9 wettbewerbsfähigen Baseline-Methoden ziehen. Bei gleichem Anteil mit echten Daten erzielt unsere Methode state-of-the-art Ergebnisse, ist dabei aber erheblich kostengünstiger zu trainieren als lehrerabhängige Alternativen. Diese Ergebnisse legen nahe, dass bei einem starken Foundation-Model die Ausrichtung an crowdsourcing-basierten Geodaten ein praktischer und skalierbarer Weg für die Domain-Adaptation in der Fernerkundung ist. Datensatz und Modellgewichte werden öffentlich verfügbar gemacht.
English
Vision-Language Models (VLMs) adapted to remote sensing rely heavily on domain-specific image-text supervision, yet high-quality annotations for satellite and aerial imagery remain scarce and expensive to produce. Prevailing pseudo-labeling pipelines address this gap by distilling knowledge from large frontier models, but this dependence on large teachers is costly, limits scalability, and caps achievable performance at the ceiling of the teacher. We propose OSMDA: a self-contained domain adaptation framework that eliminates this dependency. Our key insight is that a capable base VLM can serve as its own annotation engine: by pairing aerial images with rendered OpenStreetMap (OSM) tiles, we leverage optical character recognition and chart comprehension capabilities of the model to generate captions enriched by OSM's vast auxiliary metadata. The model is then fine-tuned on the resulting corpus with satellite imagery alone, yielding OSMDA-VLM, a domain-adapted VLM that requires no manual labeling and no stronger external model. We conduct exhaustive evaluations spanning 10 benchmarks across image-text-to-text tasks and comparing against 9 competitive baselines. When equally mixed with real data, our method achieves state-of-the-art results, while being substantially cheaper to train than teacher-dependent alternatives. These results suggest that, given a strong foundation model, alignment with crowd-sourced geographic data is a practical and scalable path towards remote sensing domain adaptation. Dataset and model weights will be made publicly available.