OSM-gebaseerde domeinaanpassing voor remote sensing VLMs
OSM-based Domain Adaptation for Remote Sensing VLMs
March 12, 2026
Auteurs: Stefan Maria Ailuro, Mario Markov, Mohammad Mahdi, Delyan Boychev, Luc Van Gool, Danda Pani Paudel
cs.AI
Samenvatting
Vision-Language Models (VLMs) die zijn aangepast voor remote sensing zijn sterk afhankelijk van domeinspecifieke beeld-tekstsupervisie. Toch zijn hoogwaardige annotaties voor satelliet- en luchtfoto's schaars en duur om te produceren. Gangbare pseudo-labeling-pipelines overbruggen deze kloof door kennis te distilleren uit grote frontier-modellen, maar deze afhankelijkheid van grote 'teachers' is kostbaar, beperkt de schaalbaarheid en plafonneert de haalbare prestaties bij het plafond van het teacher-model. Wij stellen OSMDA voor: een zelfstandig domeinaanpassingskader dat deze afhankelijkheid opheft. Onze belangrijkste inzicht is dat een capabel basis-VLM kan dienen als zijn eigen annotatie-engine: door luchtfoto's te combineren met gerenderde OpenStreetMap (OSM)-tegels, benutten we de optische tekenherkenning en grafiekbegrip van het model om bijschriften te genereren die zijn verrijkt met de uitgebreide aanvullende metadata van OSM. Het model wordt vervolgens gefinetuned op de resulterende corpus met uitsluitend satellietbeelden, wat OSMDA-VLM oplevert, een domeinaangepaste VLM die geen handmatige labeling en geen sterker extern model vereist. We voeren uitgebreide evaluaties uit over 10 benchmarks voor beeld-tekst-naar-teksttaken en vergelijken deze met 9 competitieve baselines. Wanneer gelijkelijk gemengd met echte data, behaalt onze methode state-of-the-art resultaten, terwijl de trainingskosten aanzienlijk lager zijn dan bij teacher-afhankelijke alternatieven. Deze resultaten suggereren dat, gegeven een sterk foundation-model, afstemming op door crowdsourcing verkregen geografische data een praktische en schaalbare weg is naar domeinaanpassing voor remote sensing. De dataset en modelgewichten zullen openbaar worden gemaakt.
English
Vision-Language Models (VLMs) adapted to remote sensing rely heavily on domain-specific image-text supervision, yet high-quality annotations for satellite and aerial imagery remain scarce and expensive to produce. Prevailing pseudo-labeling pipelines address this gap by distilling knowledge from large frontier models, but this dependence on large teachers is costly, limits scalability, and caps achievable performance at the ceiling of the teacher. We propose OSMDA: a self-contained domain adaptation framework that eliminates this dependency. Our key insight is that a capable base VLM can serve as its own annotation engine: by pairing aerial images with rendered OpenStreetMap (OSM) tiles, we leverage optical character recognition and chart comprehension capabilities of the model to generate captions enriched by OSM's vast auxiliary metadata. The model is then fine-tuned on the resulting corpus with satellite imagery alone, yielding OSMDA-VLM, a domain-adapted VLM that requires no manual labeling and no stronger external model. We conduct exhaustive evaluations spanning 10 benchmarks across image-text-to-text tasks and comparing against 9 competitive baselines. When equally mixed with real data, our method achieves state-of-the-art results, while being substantially cheaper to train than teacher-dependent alternatives. These results suggest that, given a strong foundation model, alignment with crowd-sourced geographic data is a practical and scalable path towards remote sensing domain adaptation. Dataset and model weights will be made publicly available.