ソクラテスのように問いかける:ソクラテスがVLMにリモートセンシング画像を理解させる
Asking like Socrates: Socrates helps VLMs understand remote sensing images
November 27, 2025
著者: Run Shao, Ziyu Li, Zhaoyang Zhang, Linrui Xu, Xinran He, Hongyuan Yuan, Bolei He, Yongxing Dai, Yiming Yan, Yijun Chen, Wang Guo, Haifeng Li
cs.AI
要旨
DeepSeek-R1に触発された最近のマルチモーダル推論モデルは、視覚言語システムを大幅に進歩させてきた。しかし、リモートセンシング(RS)タスクにおいて、我々は広範に見せかけの推論(pseudo reasoning)を観察する。すなわち、モデルは視覚的証拠に基づいて正解へ真に推論するのではなく、推論のプロセスを叙述するのである。我々はこれを「一瞥効果(Glance Effect)」に帰する。これは、大規模なRS画像に対する単一の粗い知覚が不完全な理解を生み、視覚的証拠ではなく言語的な自己一貫性に基づく推論をもたらす現象である。この問題に対処するため、我々はRS-EoT(Remote Sensing Evidence-of-Thought)を提案する。これは、言語駆動型の反復的な視覚的証拠探索パラダイムである。このパラダイムを組み込むために、推論と視覚的検査を交互に行うサイクルを通じて推論トレースを合成する、自己対戦型マルチエージェントシステムであるSocraticAgentを提案する。これらのパターンを強化し一般化するために、2段階の漸進的強化学習(RL)戦略を提案する。まず、細粒度のグラウンディングタスクに対するRLでRS-EoT能力を強化し、その後、RS VQAに対するRLでより広範な理解シナリオへ一般化する。実験により、RS-EoTは複数のRS VQAおよびグラウンディングベンチマークでState-of-the-Art性能を達成することを示す。分析により、推論と証拠探索の明確な反復サイクルが明らかとなり、RS-EoTが一瞥効果を軽減し、真の証拠に基づく推論を可能にすることが確認された。コード、データ、モデルはhttps://geox-lab.github.io/Asking_like_Socratesで公開されている。
English
Recent multimodal reasoning models, inspired by DeepSeek-R1, have significantly advanced vision-language systems. However, in remote sensing (RS) tasks, we observe widespread pseudo reasoning: models narrate the process of reasoning rather than genuinely reason toward the correct answer based on visual evidence. We attribute this to the Glance Effect, where a single, coarse perception of large-scale RS imagery results in incomplete understanding and reasoning based on linguistic self-consistency instead of visual evidence. To address this, we propose RS-EoT (Remote Sensing Evidence-of-Thought), a language-driven, iterative visual evidence-seeking paradigm. To instill this paradigm, we propose SocraticAgent, a self-play multi-agent system that synthesizes reasoning traces via alternating cycles of reasoning and visual inspection. To enhance and generalize these patterns, we propose a two-stage progressive RL strategy: first, RL on fine-grained Grounding tasks to enhance RS-EoT capabilities, followed by RL on RS VQA to generalize to broader understanding scenarios. Experiments show RS-EoT achieves state-of-the-art performance on multiple RS VQA and grounding benchmarks. Analyses reveal clear iterative cycles of reasoning and evidence seeking, confirming RS-EoT mitigates the Glance Effect and enables genuine evidence-grounded reasoning. Our code, data, and models are available at https://geox-lab.github.io/Asking_like_Socrates