Preguntando como Sócrates: Sócrates ayuda a los modelos de lenguaje y visión (VLM) a comprender imágenes de teledetección.
Asking like Socrates: Socrates helps VLMs understand remote sensing images
November 27, 2025
Autores: Run Shao, Ziyu Li, Zhaoyang Zhang, Linrui Xu, Xinran He, Hongyuan Yuan, Bolei He, Yongxing Dai, Yiming Yan, Yijun Chen, Wang Guo, Haifeng Li
cs.AI
Resumen
Los modelos recientes de razonamiento multimodal, inspirados en DeepSeek-R1, han avanzado significativamente los sistemas de visión y lenguaje. Sin embargo, en tareas de percepción remota (RS), observamos un razonamiento pseudo-generalizado: los modelos narran el proceso de razonamiento en lugar de razonar genuinamente hacia la respuesta correcta basándose en evidencia visual. Atribuimos esto al Efecto Mirada, donde una percepción única y gruesa de imágenes RS a gran escala resulta en una comprensión incompleta y un razonamiento basado en la autoconsistencia lingüística en lugar de en la evidencia visual. Para abordar esto, proponemos RS-EoT (Evidencia-del-Pensamiento en Percepción Remota), un paradigma iterativo de búsqueda de evidencia visual impulsado por el lenguaje. Para inculcar este paradigma, proponemos SocraticAgent, un sistema multiagente de autojuego que sintetiza trazas de razonamiento mediante ciclos alternos de razonamiento e inspección visual. Para mejorar y generalizar estos patrones, proponemos una estrategia RL progresiva de dos etapas: primero, RL en tareas de Grounding de grano fino para mejorar las capacidades de RS-EoT, seguido de RL en VQA de RS para generalizar a escenarios de comprensión más amplios. Los experimentos muestran que RS-EoT logra un rendimiento de vanguardia en múltiples benchmarks de VQA y grounding de RS. Los análisis revelan claros ciclos iterativos de razonamiento y búsqueda de evidencia, confirmando que RS-EoT mitiga el Efecto Mirada y permite un razonamiento genuinamente basado en evidencia. Nuestro código, datos y modelos están disponibles en https://geox-lab.github.io/Asking_like_Socrates.
English
Recent multimodal reasoning models, inspired by DeepSeek-R1, have significantly advanced vision-language systems. However, in remote sensing (RS) tasks, we observe widespread pseudo reasoning: models narrate the process of reasoning rather than genuinely reason toward the correct answer based on visual evidence. We attribute this to the Glance Effect, where a single, coarse perception of large-scale RS imagery results in incomplete understanding and reasoning based on linguistic self-consistency instead of visual evidence. To address this, we propose RS-EoT (Remote Sensing Evidence-of-Thought), a language-driven, iterative visual evidence-seeking paradigm. To instill this paradigm, we propose SocraticAgent, a self-play multi-agent system that synthesizes reasoning traces via alternating cycles of reasoning and visual inspection. To enhance and generalize these patterns, we propose a two-stage progressive RL strategy: first, RL on fine-grained Grounding tasks to enhance RS-EoT capabilities, followed by RL on RS VQA to generalize to broader understanding scenarios. Experiments show RS-EoT achieves state-of-the-art performance on multiple RS VQA and grounding benchmarks. Analyses reveal clear iterative cycles of reasoning and evidence seeking, confirming RS-EoT mitigates the Glance Effect and enables genuine evidence-grounded reasoning. Our code, data, and models are available at https://geox-lab.github.io/Asking_like_Socrates