Adattamento di Dominio basato su OSM per VLM di Telerilevamento

Abstract

I modelli visione-linguaggio (VLM) adattati al telerilevamento dipendono fortemente da supervisione immagine-testo specifica del dominio, eppure le annotazioni di alta qualità per immagini satellitari e aeree rimangono scarse e costose da produrre. Le pipeline di pseudo-etichettatura prevalenti affrontano questa lacuna distillando conoscenza da grandi modelli all'avanguardia, ma questa dipendenza da "insegnanti" di grandi dimensioni è costosa, limita la scalabilità e fissa la performance massima ottenibile al livello del modello insegnante. Proponiamo OSMDA: un framework di adattamento di dominio autonomo che elimina questa dipendenza. La nostra intuizione chiave è che un VLM base capace possa fungere da proprio motore di annotazione: accoppiando immagini aeree con tile renderizzati di OpenStreetMap (OSM), sfruttiamo le capacità di riconoscimento ottico dei caratteri e di comprensione di grafici del modello per generare didascalie arricchite dai vasti metadati ausiliari di OSM. Il modello viene poi messo a punto sul corpus risultante utilizzando esclusivamente immagini satellitari, producendo OSMDA-VLM, un VLM adattato al dominio che non richiede etichettatura manuale né modelli esterni più potenti. Condividiamo valutazioni esaustive che coprono 10 benchmark per attività immagine-testo-a-testo e confronti con 9 baseline competitive. Quando mescolato in parti uguali con dati reali, il nostro metodo raggiunge risultati allo stato dell'arte, pur essendo sostanzialmente più economico da addestrare rispetto alle alternative dipendenti da modelli insegnanti. Questi risultati suggeriscono che, dato un modello base solido, l'allineamento con dati geografici crowdsourced rappresenti un percorso pratico e scalabile verso l'adattamento di dominio per il telerilevamento. Il dataset e i pesi del modello saranno resi pubblicamente disponibili.

English

Vision-Language Models (VLMs) adapted to remote sensing rely heavily on domain-specific image-text supervision, yet high-quality annotations for satellite and aerial imagery remain scarce and expensive to produce. Prevailing pseudo-labeling pipelines address this gap by distilling knowledge from large frontier models, but this dependence on large teachers is costly, limits scalability, and caps achievable performance at the ceiling of the teacher. We propose OSMDA: a self-contained domain adaptation framework that eliminates this dependency. Our key insight is that a capable base VLM can serve as its own annotation engine: by pairing aerial images with rendered OpenStreetMap (OSM) tiles, we leverage optical character recognition and chart comprehension capabilities of the model to generate captions enriched by OSM's vast auxiliary metadata. The model is then fine-tuned on the resulting corpus with satellite imagery alone, yielding OSMDA-VLM, a domain-adapted VLM that requires no manual labeling and no stronger external model. We conduct exhaustive evaluations spanning 10 benchmarks across image-text-to-text tasks and comparing against 9 competitive baselines. When equally mixed with real data, our method achieves state-of-the-art results, while being substantially cheaper to train than teacher-dependent alternatives. These results suggest that, given a strong foundation model, alignment with crowd-sourced geographic data is a practical and scalable path towards remote sensing domain adaptation. Dataset and model weights will be made publicly available.

Adattamento di Dominio basato su OSM per VLM di Telerilevamento

OSM-based Domain Adaptation for Remote Sensing VLMs

Abstract

Support