Nach sokratischer Art zu fragen: Sokrates hilft VLMs, Fernerkundungsbilder zu verstehen
Asking like Socrates: Socrates helps VLMs understand remote sensing images
November 27, 2025
papers.authors: Run Shao, Ziyu Li, Zhaoyang Zhang, Linrui Xu, Xinran He, Hongyuan Yuan, Bolei He, Yongxing Dai, Yiming Yan, Yijun Chen, Wang Guo, Haifeng Li
cs.AI
papers.abstract
Aktuelle multimodale Reasoning-Modelle, inspiriert von DeepSeek-R1, haben vision-sprachliche Systeme erheblich vorangebracht. Bei Fernerkundungsaufgaben (RS) beobachten wir jedoch weitverbreitetes Pseudo-Reasoning: Modelle schildern den Denkprozess, anstatt tatsächlich auf Basis visueller Evidenz zur korrekten Antwort zu gelangen. Wir führen dies auf den "Glance Effect" zurück, bei dem eine einzige, grobe Wahrnehmung großflächiger RS-Bilder zu unvollständigem Verständnis und Reasoning auf Basis linguistischer Selbstkonsistenz statt visueller Evidenz führt. Um dies zu adressieren, schlagen wir RS-EoT (Remote Sensing Evidence-of-Thought) vor, ein sprachgestütztes, iteratives Paradigma zur Suche visueller Evidenz. Zur Umsetzung dieses Paradigmas entwickeln wir SocraticAgent, ein Multi-Agenten-System mit Selbstspiel, das Reasoning-Pfade durch abwechselnde Zyklen von Reasoning und visueller Überprüfung synthetisiert. Zur Verstärkung und Generalisierung dieser Muster schlagen wir eine zweistufige progressive RL-Strategie vor: zunächst RL auf feingranularen Grounding-Aufgaben zur Stärkung der RS-EoT-Fähigkeiten, gefolgt von RL auf RS-VQA zur Generalisierung auf breitere Verständnisszenarien. Experimente zeigen, dass RS-EoT state-of-the-art Leistung auf mehreren RS-VQA- und Grounding-Benchmarks erreicht. Analysen belegen klare iterative Zyklen von Reasoning und Evidenzsuche, was bestätigt, dass RS-EoT den Glance Effect mildert und echtes evidenzbasiertes Reasoning ermöglicht. Unser Code, Daten und Modelle sind verfügbar unter https://geox-lab.github.io/Asking_like_Socrates.
English
Recent multimodal reasoning models, inspired by DeepSeek-R1, have significantly advanced vision-language systems. However, in remote sensing (RS) tasks, we observe widespread pseudo reasoning: models narrate the process of reasoning rather than genuinely reason toward the correct answer based on visual evidence. We attribute this to the Glance Effect, where a single, coarse perception of large-scale RS imagery results in incomplete understanding and reasoning based on linguistic self-consistency instead of visual evidence. To address this, we propose RS-EoT (Remote Sensing Evidence-of-Thought), a language-driven, iterative visual evidence-seeking paradigm. To instill this paradigm, we propose SocraticAgent, a self-play multi-agent system that synthesizes reasoning traces via alternating cycles of reasoning and visual inspection. To enhance and generalize these patterns, we propose a two-stage progressive RL strategy: first, RL on fine-grained Grounding tasks to enhance RS-EoT capabilities, followed by RL on RS VQA to generalize to broader understanding scenarios. Experiments show RS-EoT achieves state-of-the-art performance on multiple RS VQA and grounding benchmarks. Analyses reveal clear iterative cycles of reasoning and evidence seeking, confirming RS-EoT mitigates the Glance Effect and enables genuine evidence-grounded reasoning. Our code, data, and models are available at https://geox-lab.github.io/Asking_like_Socrates