ChatPaper.aiChatPaper

Interroger comme Socrate : Socrate aide les modèles de vision par ordinateur à comprendre les images de télédétection

Asking like Socrates: Socrates helps VLMs understand remote sensing images

November 27, 2025
papers.authors: Run Shao, Ziyu Li, Zhaoyang Zhang, Linrui Xu, Xinran He, Hongyuan Yuan, Bolei He, Yongxing Dai, Yiming Yan, Yijun Chen, Wang Guo, Haifeng Li
cs.AI

papers.abstract

Les modèles récents de raisonnement multimodal, inspirés de DeepSeek-R1, ont considérablement fait progresser les systèmes vision-langage. Cependant, dans les tâches de télédétection (RS), nous observons un raisonnement pseudo-systématique : les modèles décrivent le processus de raisonnement plutôt que de raisonner véritablement vers la réponse correcte sur la base de preuves visuelles. Nous attribuons cela à l'**Effet Coup d'Œil** (*Glance Effect*), où une perception unique et grossière des images RS à grande échelle entraîne une compréhension incomplète et un raisonnement basé sur l'auto-cohérence linguistique plutôt que sur des preuves visuelles. Pour y remédier, nous proposons **RS-EoT** (*Remote Sensing Evidence-of-Thought*), un paradigme itératif, piloté par le langage, de recherche de preuves visuelles. Pour instiller ce paradigme, nous proposons **SocraticAgent**, un système multi-agent à auto-jeu qui synthétise des traces de raisonnement via des cycles alternés de raisonnement et d'inspection visuelle. Pour renforcer et généraliser ces schémas, nous proposons une stratégie RL progressive en deux étapes : d'abord, du RL sur des tâches de Localisation fine (*Grounding*) pour renforcer les capacités RS-EoT, suivi par du RL sur du VQA RS pour généraliser à des scénarios de compréhension plus larges. Les expériences montrent que RS-EoT atteint des performances à l'état de l'art sur plusieurs benchmarks de VQA et de localisation en RS. Les analyses révèlent des cycles itératifs clairs de raisonnement et de recherche de preuves, confirmant que RS-EoT atténue l'Effet Coup d'Œil et permet un raisonnement authentiquement fondé sur des preuves. Notre code, nos données et nos modèles sont disponibles à l'adresse https://geox-lab.github.io/Asking_like_Socrates.
English
Recent multimodal reasoning models, inspired by DeepSeek-R1, have significantly advanced vision-language systems. However, in remote sensing (RS) tasks, we observe widespread pseudo reasoning: models narrate the process of reasoning rather than genuinely reason toward the correct answer based on visual evidence. We attribute this to the Glance Effect, where a single, coarse perception of large-scale RS imagery results in incomplete understanding and reasoning based on linguistic self-consistency instead of visual evidence. To address this, we propose RS-EoT (Remote Sensing Evidence-of-Thought), a language-driven, iterative visual evidence-seeking paradigm. To instill this paradigm, we propose SocraticAgent, a self-play multi-agent system that synthesizes reasoning traces via alternating cycles of reasoning and visual inspection. To enhance and generalize these patterns, we propose a two-stage progressive RL strategy: first, RL on fine-grained Grounding tasks to enhance RS-EoT capabilities, followed by RL on RS VQA to generalize to broader understanding scenarios. Experiments show RS-EoT achieves state-of-the-art performance on multiple RS VQA and grounding benchmarks. Analyses reveal clear iterative cycles of reasoning and evidence seeking, confirming RS-EoT mitigates the Glance Effect and enables genuine evidence-grounded reasoning. Our code, data, and models are available at https://geox-lab.github.io/Asking_like_Socrates
PDF41December 3, 2025