ChatPaper.aiChatPaper

원격탐사 시각언어모델을 위한 OSM 기반 도메인 적응

OSM-based Domain Adaptation for Remote Sensing VLMs

March 12, 2026
저자: Stefan Maria Ailuro, Mario Markov, Mohammad Mahdi, Delyan Boychev, Luc Van Gool, Danda Pani Paudel
cs.AI

초록

원격 감지에 적용된 시각-언어 모델(VLMs)은 도메인 특화 이미지-텍스트 감독에 크게 의존하지만, 위성 및 항공 이미지에 대한 고품질 주석은 여전히 부족하고 생산 비용이 높습니다. 기존의 가짜 주석 파이프라인은 대형 프론티어 모델에서 지식을 추출하여 이 격차를 해소하려 하지만, 대형 교사 모델에 대한 의존은 비용이 많이 들고 확장성을 제한하며, 달성 가능한 성능을 교사 모델의 성능 한계로 제한합니다. 우리는 이러한 의존성을 제거하는 독립형 도메인 적응 프레임워크인 OSMDA를 제안합니다. 우리의 핵심 통찰은 능력 있는 기본 VLM이 자체 주석 엔진 역할을 할 수 있다는 것입니다: 항공 이미지를 렌더링된 OpenStreetMap(OSM) 타일과 결합함으로써, 모델의 광학 문자 인식 및 차트 이해 능력을 활용하여 OSM의 방대한 보조 메타데이터로 풍부해진 캡션을 생성합니다. 그런 다음 모델은 생성된 코퍼스로 위성 이미지만 사용하여 미세 조정되며, 결과적으로 수동 라벨링이나 더 강력한 외부 모델 없이 도메인 적응된 VLM인 OSMDA-VLM을 얻습니다. 우리는 이미지-텍스트-텍스트 작업에 걸친 10개 벤치마크에서 포괄적인 평가를 수행하고 9개의 경쟁력 있는 기준 모델과 비교합니다. 실제 데이터와 동등하게 혼합했을 때, 우리의 방법은 교사 모델 의존적 대안들보다 훨씬 저렴한 학습 비용으로 최첨단 결과를 달성합니다. 이러한 결과는 강력한 기초 모델이 주어졌을 때, 크라우드소싱된 지리 데이터와의 정렬이 원격 감지 도메인 적응을 위한 실용적이고 확장 가능한 경로임을 시사합니다. 데이터셋과 모델 가중치는 공개될 예정입니다.
English
Vision-Language Models (VLMs) adapted to remote sensing rely heavily on domain-specific image-text supervision, yet high-quality annotations for satellite and aerial imagery remain scarce and expensive to produce. Prevailing pseudo-labeling pipelines address this gap by distilling knowledge from large frontier models, but this dependence on large teachers is costly, limits scalability, and caps achievable performance at the ceiling of the teacher. We propose OSMDA: a self-contained domain adaptation framework that eliminates this dependency. Our key insight is that a capable base VLM can serve as its own annotation engine: by pairing aerial images with rendered OpenStreetMap (OSM) tiles, we leverage optical character recognition and chart comprehension capabilities of the model to generate captions enriched by OSM's vast auxiliary metadata. The model is then fine-tuned on the resulting corpus with satellite imagery alone, yielding OSMDA-VLM, a domain-adapted VLM that requires no manual labeling and no stronger external model. We conduct exhaustive evaluations spanning 10 benchmarks across image-text-to-text tasks and comparing against 9 competitive baselines. When equally mixed with real data, our method achieves state-of-the-art results, while being substantially cheaper to train than teacher-dependent alternatives. These results suggest that, given a strong foundation model, alignment with crowd-sourced geographic data is a practical and scalable path towards remote sensing domain adaptation. Dataset and model weights will be made publicly available.
PDF41March 21, 2026