ChatPaper.aiChatPaper

Perguntando como Sócrates: Sócrates ajuda os VLMs a compreender imagens de sensoriamento remoto

Asking like Socrates: Socrates helps VLMs understand remote sensing images

November 27, 2025
Autores: Run Shao, Ziyu Li, Zhaoyang Zhang, Linrui Xu, Xinran He, Hongyuan Yuan, Bolei He, Yongxing Dai, Yiming Yan, Yijun Chen, Wang Guo, Haifeng Li
cs.AI

Resumo

Os recentes modelos de raciocínio multimodal, inspirados no DeepSeek-R1, avançaram significativamente os sistemas de visão e linguagem. No entanto, em tarefas de sensoriamento remoto (SR), observamos um fenômeno generalizado de pseudorracioncínio: os modelos narram o processo de raciocínio em vez de genuinamente raciocinar em direção à resposta correta com base em evidências visuais. Atribuímos isso ao Efeito de Olhadela, onde uma única percepção grosseira de imagens de SR em larga escala resulta em compreensão incompleta e raciocínio baseado na autoconsistência linguística, em vez de evidências visuais. Para resolver isso, propomos o RS-EoT (Evidence-of-Thought em Sensoriamento Remoto), um paradigma iterativo de busca por evidências visuais orientado por linguagem. Para instilar este paradigma, propomos o SocraticAgent, um sistema multiagente de autojogo que sintetiza traços de raciocínio por meio de ciclos alternados de raciocínio e inspeção visual. Para aprimorar e generalizar esses padrões, propomos uma estratégia progressiva de RL em dois estágios: primeiro, RL em tarefas de Aterramento de alta granularidade para aprimorar as capacidades do RS-EoT, seguido por RL em VQA de SR para generalizar para cenários de compreensão mais amplos. Os experimentos mostram que o RS-EoT alcança desempenho de ponta em vários benchmarks de VQA e aterramento em SR. As análises revelam ciclos iterativos claros de raciocínio e busca por evidências, confirmando que o RS-EoT mitiga o Efeito de Olhadela e permite um raciocínio genuinamente fundamentado em evidências. Nosso código, dados e modelos estão disponíveis em https://geox-lab.github.io/Asking_like_Socrates.
English
Recent multimodal reasoning models, inspired by DeepSeek-R1, have significantly advanced vision-language systems. However, in remote sensing (RS) tasks, we observe widespread pseudo reasoning: models narrate the process of reasoning rather than genuinely reason toward the correct answer based on visual evidence. We attribute this to the Glance Effect, where a single, coarse perception of large-scale RS imagery results in incomplete understanding and reasoning based on linguistic self-consistency instead of visual evidence. To address this, we propose RS-EoT (Remote Sensing Evidence-of-Thought), a language-driven, iterative visual evidence-seeking paradigm. To instill this paradigm, we propose SocraticAgent, a self-play multi-agent system that synthesizes reasoning traces via alternating cycles of reasoning and visual inspection. To enhance and generalize these patterns, we propose a two-stage progressive RL strategy: first, RL on fine-grained Grounding tasks to enhance RS-EoT capabilities, followed by RL on RS VQA to generalize to broader understanding scenarios. Experiments show RS-EoT achieves state-of-the-art performance on multiple RS VQA and grounding benchmarks. Analyses reveal clear iterative cycles of reasoning and evidence seeking, confirming RS-EoT mitigates the Glance Effect and enables genuine evidence-grounded reasoning. Our code, data, and models are available at https://geox-lab.github.io/Asking_like_Socrates
PDF52February 26, 2026