Adaptation de domaine basée sur OSM pour les modèles de langage visuel en télédétection
OSM-based Domain Adaptation for Remote Sensing VLMs
March 12, 2026
Auteurs: Stefan Maria Ailuro, Mario Markov, Mohammad Mahdi, Delyan Boychev, Luc Van Gool, Danda Pani Paudel
cs.AI
Résumé
Les modèles vision-langage (VLM) adaptés à la télédétection reposent fortement sur des supervisions image-texte spécifiques au domaine, pourtant les annotations de haute qualité pour l'imagerie satellitaire et aérienne restent rares et coûteuses à produire. Les pipelines de pseudo-étiquetage dominants comblent cette lacune en distillant les connaissances de grands modèles de référence, mais cette dépendance envers de grands enseignants est coûteuse, limite l'évolutivité et plafonne les performances au niveau du modèle enseignant. Nous proposons OSMDA : un cadre d'adaptation de domaine autonome qui élimine cette dépendance. Notre idée clé est qu'un VLM de base performant peut servir de moteur d'annotation autonome : en associant des images aériennes à des tuiles OpenStreetMap (OSM) rendues, nous exploitons les capacités de reconnaissance optique de caractères et de compréhension de graphiques du modèle pour générer des légendes enrichies par les vastes métadonnées auxiliaires d'OSM. Le modèle est ensuite affiné sur le corpus résultant avec de la seule imagerie satellitaire, produisant OSMDA-VLM, un VLM adapté au domaine qui ne nécessite aucun étiquetage manuel ni modèle externe plus puissant. Nous menons des évaluations exhaustives couvrant 10 benchmarks pour des tâches image-texte-à-texte et comparons avec 9 bases de référence compétitives. Lorsqu'il est mélangé à parts égales avec des données réelles, notre méthode obtient des résultats à l'état de l'art, tout en étant substantiellement moins chère à entraîner que les alternatives dépendantes d'un enseignant. Ces résultats suggèrent que, compte tenu d'un modèle de base solide, l'alignement avec des données géographiques collaboratives est une voie pratique et évolutive vers l'adaptation au domaine de la télédétection. Le jeu de données et les poids des modèles seront rendus publics.
English
Vision-Language Models (VLMs) adapted to remote sensing rely heavily on domain-specific image-text supervision, yet high-quality annotations for satellite and aerial imagery remain scarce and expensive to produce. Prevailing pseudo-labeling pipelines address this gap by distilling knowledge from large frontier models, but this dependence on large teachers is costly, limits scalability, and caps achievable performance at the ceiling of the teacher. We propose OSMDA: a self-contained domain adaptation framework that eliminates this dependency. Our key insight is that a capable base VLM can serve as its own annotation engine: by pairing aerial images with rendered OpenStreetMap (OSM) tiles, we leverage optical character recognition and chart comprehension capabilities of the model to generate captions enriched by OSM's vast auxiliary metadata. The model is then fine-tuned on the resulting corpus with satellite imagery alone, yielding OSMDA-VLM, a domain-adapted VLM that requires no manual labeling and no stronger external model. We conduct exhaustive evaluations spanning 10 benchmarks across image-text-to-text tasks and comparing against 9 competitive baselines. When equally mixed with real data, our method achieves state-of-the-art results, while being substantially cheaper to train than teacher-dependent alternatives. These results suggest that, given a strong foundation model, alignment with crowd-sourced geographic data is a practical and scalable path towards remote sensing domain adaptation. Dataset and model weights will be made publicly available.