Адаптация домена на основе OSM для визуально-языковых моделей дистанционного зондирования

Аннотация

Модели «визуальный язык» (VLM), адаптированные для дистанционного зондирования, сильно зависят от предметно-ориентированных изображений и текстовых данных для обучения. Однако создание высококачественных аннотаций для спутниковых и аэрофотоснимков остается сложной и дорогостоящей задачей. Распространенные методы псевдоразметки решают эту проблему, дистиллируя знания из больших фронтирных моделей, но такая зависимость от крупных «учителей» является затратной, ограничивает масштабируемость и устанавливает потолок производительности на уровне учителя. Мы предлагаем OSMDA: самодостаточную框架 адаптации домена, которая устраняет эту зависимость. Наше ключевое наблюдение заключается в том, что мощная базовая VLM может служить собственным механизмом аннотирования: сопоставляя аэрофотоснимки с визуализированными тайлами OpenStreetMap (OSM), мы используем возможности модели по распознаванию текста и анализу схем для генерации описаний, обогащенных обширными вспомогательными метаданными OSM. Затем модель дообучается на полученном корпусе, используя только спутниковые изображения, в результате чего получается OSMDA-VLM — адаптированная к домену VLM, не требующая ручной разметки и более мощных внешних моделей. Мы провели всестороннюю оценку на 10 тестовых наборах данных для задач «изображение-текст-в-текст» и сравнили с 9 конкурентоспособными базовыми методами. При равномерном смешивании с реальными данными наш метод достигает наилучших результатов, будучи при этом существенно дешевле в обучении, чем альтернативы, зависящие от учителя. Эти результаты позволяют предположить, что при наличии сильной базовой модели, интеграция с краудсорсинговыми географическими данными представляет собой практичный и масштабируемый путь адаптации к домену дистанционного зондирования. Набор данных и веса модели будут опубликованы в открытом доступе.

English

Vision-Language Models (VLMs) adapted to remote sensing rely heavily on domain-specific image-text supervision, yet high-quality annotations for satellite and aerial imagery remain scarce and expensive to produce. Prevailing pseudo-labeling pipelines address this gap by distilling knowledge from large frontier models, but this dependence on large teachers is costly, limits scalability, and caps achievable performance at the ceiling of the teacher. We propose OSMDA: a self-contained domain adaptation framework that eliminates this dependency. Our key insight is that a capable base VLM can serve as its own annotation engine: by pairing aerial images with rendered OpenStreetMap (OSM) tiles, we leverage optical character recognition and chart comprehension capabilities of the model to generate captions enriched by OSM's vast auxiliary metadata. The model is then fine-tuned on the resulting corpus with satellite imagery alone, yielding OSMDA-VLM, a domain-adapted VLM that requires no manual labeling and no stronger external model. We conduct exhaustive evaluations spanning 10 benchmarks across image-text-to-text tasks and comparing against 9 competitive baselines. When equally mixed with real data, our method achieves state-of-the-art results, while being substantially cheaper to train than teacher-dependent alternatives. These results suggest that, given a strong foundation model, alignment with crowd-sourced geographic data is a practical and scalable path towards remote sensing domain adaptation. Dataset and model weights will be made publicly available.

Адаптация домена на основе OSM для визуально-языковых моделей дистанционного зондирования

OSM-based Domain Adaptation for Remote Sensing VLMs

Аннотация

Support