Perguntando como Sócrates: Sócrates ajuda os VLMs a compreender imagens de sensoriamento remoto

Resumo

Os recentes modelos de raciocínio multimodal, inspirados no DeepSeek-R1, avançaram significativamente os sistemas de visão e linguagem. No entanto, em tarefas de sensoriamento remoto (SR), observamos um fenômeno generalizado de pseudorracioncínio: os modelos narram o processo de raciocínio em vez de genuinamente raciocinar em direção à resposta correta com base em evidências visuais. Atribuímos isso ao Efeito de Olhadela, onde uma única percepção grosseira de imagens de SR em larga escala resulta em compreensão incompleta e raciocínio baseado na autoconsistência linguística, em vez de evidências visuais. Para resolver isso, propomos o RS-EoT (Evidence-of-Thought em Sensoriamento Remoto), um paradigma iterativo de busca por evidências visuais orientado por linguagem. Para instilar este paradigma, propomos o SocraticAgent, um sistema multiagente de autojogo que sintetiza traços de raciocínio por meio de ciclos alternados de raciocínio e inspeção visual. Para aprimorar e generalizar esses padrões, propomos uma estratégia progressiva de RL em dois estágios: primeiro, RL em tarefas de Aterramento de alta granularidade para aprimorar as capacidades do RS-EoT, seguido por RL em VQA de SR para generalizar para cenários de compreensão mais amplos. Os experimentos mostram que o RS-EoT alcança desempenho de ponta em vários benchmarks de VQA e aterramento em SR. As análises revelam ciclos iterativos claros de raciocínio e busca por evidências, confirmando que o RS-EoT mitiga o Efeito de Olhadela e permite um raciocínio genuinamente fundamentado em evidências. Nosso código, dados e modelos estão disponíveis em https://geox-lab.github.io/Asking_like_Socrates.

English

Recent multimodal reasoning models, inspired by DeepSeek-R1, have significantly advanced vision-language systems. However, in remote sensing (RS) tasks, we observe widespread pseudo reasoning: models narrate the process of reasoning rather than genuinely reason toward the correct answer based on visual evidence. We attribute this to the Glance Effect, where a single, coarse perception of large-scale RS imagery results in incomplete understanding and reasoning based on linguistic self-consistency instead of visual evidence. To address this, we propose RS-EoT (Remote Sensing Evidence-of-Thought), a language-driven, iterative visual evidence-seeking paradigm. To instill this paradigm, we propose SocraticAgent, a self-play multi-agent system that synthesizes reasoning traces via alternating cycles of reasoning and visual inspection. To enhance and generalize these patterns, we propose a two-stage progressive RL strategy: first, RL on fine-grained Grounding tasks to enhance RS-EoT capabilities, followed by RL on RS VQA to generalize to broader understanding scenarios. Experiments show RS-EoT achieves state-of-the-art performance on multiple RS VQA and grounding benchmarks. Analyses reveal clear iterative cycles of reasoning and evidence seeking, confirming RS-EoT mitigates the Glance Effect and enables genuine evidence-grounded reasoning. Our code, data, and models are available at https://geox-lab.github.io/Asking_like_Socrates

Perguntando como Sócrates: Sócrates ajuda os VLMs a compreender imagens de sensoriamento remoto

Asking like Socrates: Socrates helps VLMs understand remote sensing images

Resumo

Support