リモートセンシングVLMのためのOSMベースドメイン適応
OSM-based Domain Adaptation for Remote Sensing VLMs
March 12, 2026
著者: Stefan Maria Ailuro, Mario Markov, Mohammad Mahdi, Delyan Boychev, Luc Van Gool, Danda Pani Paudel
cs.AI
要旨
リモートセンシングに適応された視覚言語モデル(VLM)は、ドメイン固有の画像-テキスト監督に強く依存しているが、衛星画像や航空画像に対する高品質なアノテーションは依然として不足しており、作成コストも高い。既存の擬似ラベリング手法は、大規模フロンティアモデルからの知識蒸留によってこの問題に対処するが、大規模な教師モデルへの依存はコストが高く、拡張性を制限し、達成可能な性能を教師モデルの上限に抑えてしまう。本研究では、この依存関係を排除する自己完結型ドメイン適応フレームワーク「OSMDA」を提案する。我々の重要な洞察は、能力のあるベースVLMが自身のアノテーションエンジンとして機能し得る点である。航空画像とレンダリングされたOpenStreetMap(OSM)タイルを組み合わせることで、モデルの光学文字認識および図表理解能力を活用し、OSMの豊富な補助メタデータで強化されたキャプションを生成する。その後、モデルは衛星画像のみからなる結果コーパスで微調整され、手動ラベリングや強力な外部モデルを必要としないドメイン適応VLM「OSMDA-VLM」が得られる。画像-テキストからテキスト生成タスクにおける10のベンチマークにわたる網羅的評価を実施し、9つの競合ベースラインと比較した。実データと均等に混合した場合、本手法は教師モデル依存の代替手法よりも訓練コストが大幅に低いながら、state-of-the-artの結果を達成する。これらの結果は、強力な基盤モデルが与えられた場合、クラウドソーシングされた地理データとの整合性が、リモートセンシングドメイン適応に向けた実用的かつ拡張可能な経路であることを示唆する。データセットとモデル重みは公開予定である。
English
Vision-Language Models (VLMs) adapted to remote sensing rely heavily on domain-specific image-text supervision, yet high-quality annotations for satellite and aerial imagery remain scarce and expensive to produce. Prevailing pseudo-labeling pipelines address this gap by distilling knowledge from large frontier models, but this dependence on large teachers is costly, limits scalability, and caps achievable performance at the ceiling of the teacher. We propose OSMDA: a self-contained domain adaptation framework that eliminates this dependency. Our key insight is that a capable base VLM can serve as its own annotation engine: by pairing aerial images with rendered OpenStreetMap (OSM) tiles, we leverage optical character recognition and chart comprehension capabilities of the model to generate captions enriched by OSM's vast auxiliary metadata. The model is then fine-tuned on the resulting corpus with satellite imagery alone, yielding OSMDA-VLM, a domain-adapted VLM that requires no manual labeling and no stronger external model. We conduct exhaustive evaluations spanning 10 benchmarks across image-text-to-text tasks and comparing against 9 competitive baselines. When equally mixed with real data, our method achieves state-of-the-art results, while being substantially cheaper to train than teacher-dependent alternatives. These results suggest that, given a strong foundation model, alignment with crowd-sourced geographic data is a practical and scalable path towards remote sensing domain adaptation. Dataset and model weights will be made publicly available.