Vragen als Socrates: Socrates helpt VLMs bij het begrijpen van remote sensing-beelden.
Asking like Socrates: Socrates helps VLMs understand remote sensing images
November 27, 2025
Auteurs: Run Shao, Ziyu Li, Zhaoyang Zhang, Linrui Xu, Xinran He, Hongyuan Yuan, Bolei He, Yongxing Dai, Yiming Yan, Yijun Chen, Wang Guo, Haifeng Li
cs.AI
Samenvatting
Recente multimodale redeneermodellen, geïnspireerd door DeepSeek-R1, hebben vision-language systemen aanzienlijk vooruitgebracht. Bij remote sensing (RS)-taken observeren we echter wijdverspreid pseudo-redeneren: modellen beschrijven het redeneerproces in plaats van daadwerkelijk op basis van visueel bewijs naar het juiste antwoord toe te redeneren. Wij schrijven dit toe aan het Glance Effect, waarbij een enkele, grove waarneming van grootschalige RS-beelden leidt tot een onvolledig begrip en redeneren gebaseerd op linguïstische zelfconsistentie in plaats van visueel bewijs. Om dit aan te pakken, stellen wij RS-EoT (Remote Sensing Evidence-of-Thought) voor, een taalgestuurd, iteratief paradigma voor het zoeken naar visueel bewijs. Om dit paradigma in te bedden, stellen wij SocraticAgent voor, een multi-agent systeem met zelf-play dat redeneersporen synthetiseert via afwisselende cycli van redeneren en visuele inspectie. Om deze patronen te versterken en te generaliseren, stellen wij een tweefasen progressieve RL-strategie voor: eerst RL op fijnmazige Grounding-taken om RS-EoT-capaciteiten te verbeteren, gevolgd door RL op RS VQA om naar bredere begripscenario's te generaliseren. Experimenten tonen aan dat RS-EoT state-of-the-art prestaties behaalt op meerdere RS VQA- en grounding-benchmarks. Analyses onthullen duidelijke iteratieve cycli van redeneren en bewijs zoeken, wat bevestigt dat RS-EoT het Glance Effect beperkt en echt op bewijs gebaseerd redeneren mogelijk maakt. Onze code, gegevens en modellen zijn beschikbaar op https://geox-lab.github.io/Asking_like_Socrates.
English
Recent multimodal reasoning models, inspired by DeepSeek-R1, have significantly advanced vision-language systems. However, in remote sensing (RS) tasks, we observe widespread pseudo reasoning: models narrate the process of reasoning rather than genuinely reason toward the correct answer based on visual evidence. We attribute this to the Glance Effect, where a single, coarse perception of large-scale RS imagery results in incomplete understanding and reasoning based on linguistic self-consistency instead of visual evidence. To address this, we propose RS-EoT (Remote Sensing Evidence-of-Thought), a language-driven, iterative visual evidence-seeking paradigm. To instill this paradigm, we propose SocraticAgent, a self-play multi-agent system that synthesizes reasoning traces via alternating cycles of reasoning and visual inspection. To enhance and generalize these patterns, we propose a two-stage progressive RL strategy: first, RL on fine-grained Grounding tasks to enhance RS-EoT capabilities, followed by RL on RS VQA to generalize to broader understanding scenarios. Experiments show RS-EoT achieves state-of-the-art performance on multiple RS VQA and grounding benchmarks. Analyses reveal clear iterative cycles of reasoning and evidence seeking, confirming RS-EoT mitigates the Glance Effect and enables genuine evidence-grounded reasoning. Our code, data, and models are available at https://geox-lab.github.io/Asking_like_Socrates