ChatPaper.aiChatPaper

Задавая вопросы, как Сократ: как сократовский метод помогает моделям визуального языка понимать спутниковые снимки

Asking like Socrates: Socrates helps VLMs understand remote sensing images

November 27, 2025
Авторы: Run Shao, Ziyu Li, Zhaoyang Zhang, Linrui Xu, Xinran He, Hongyuan Yuan, Bolei He, Yongxing Dai, Yiming Yan, Yijun Chen, Wang Guo, Haifeng Li
cs.AI

Аннотация

Современные мультимодальные модели рассуждений, вдохновленные DeepSeek-R1, значительно продвинули системы "зрение-язык". Однако в задачах дистанционного зондирования (ДЗ) мы наблюдаем широко распространенное псевдорассуждение: модели описывают процесс рассуждения, а не подлинно приходят к правильному ответу на основе визуальных данных. Мы объясняем это "эффектом беглого взгляда" (Glance Effect), когда единичное, грубое восприятие крупномасштабных изображений ДЗ приводит к неполному пониманию и рассуждениям, основанным на лингвистической самосогласованности, а не на визуальных свидетельствах. Для решения этой проблемы мы предлагаем RS-EoT (Evidence-of-Thought для ДЗ) — языковую, итеративную парадигму поиска визуальных свидетельств. Для внедрения этой парадигмы мы предлагаем SocraticAgent, самообучающуюся мультиагентную систему, которая синтезирует цепочки рассуждений через чередующиеся циклы логического вывода и визуального анализа. Для усиления и обобщения этих паттернов мы предлагаем двухэтапную прогрессивную стратегию обучения с подкреплением (RL): сначала RL на задачах точного позиционирования (Grounding) для усиления возможностей RS-EoT, а затем RL на задачах VQA для ДЗ для обобщения на более широкие сценарии понимания. Эксперименты показывают, что RS-EoT достигает передовых результатов на нескольких бенчмарках VQA и позиционирования для ДЗ. Анализ выявляет четкие итеративные циклы рассуждений и поиска свидетельств, подтверждая, что RS-EoT смягчает "эффект беглого взгляда" и обеспечивает подлинное обоснованное доказательствами рассуждение. Наш код, данные и модели доступны по адресу https://geox-lab.github.io/Asking_like_Socrates.
English
Recent multimodal reasoning models, inspired by DeepSeek-R1, have significantly advanced vision-language systems. However, in remote sensing (RS) tasks, we observe widespread pseudo reasoning: models narrate the process of reasoning rather than genuinely reason toward the correct answer based on visual evidence. We attribute this to the Glance Effect, where a single, coarse perception of large-scale RS imagery results in incomplete understanding and reasoning based on linguistic self-consistency instead of visual evidence. To address this, we propose RS-EoT (Remote Sensing Evidence-of-Thought), a language-driven, iterative visual evidence-seeking paradigm. To instill this paradigm, we propose SocraticAgent, a self-play multi-agent system that synthesizes reasoning traces via alternating cycles of reasoning and visual inspection. To enhance and generalize these patterns, we propose a two-stage progressive RL strategy: first, RL on fine-grained Grounding tasks to enhance RS-EoT capabilities, followed by RL on RS VQA to generalize to broader understanding scenarios. Experiments show RS-EoT achieves state-of-the-art performance on multiple RS VQA and grounding benchmarks. Analyses reveal clear iterative cycles of reasoning and evidence seeking, confirming RS-EoT mitigates the Glance Effect and enables genuine evidence-grounded reasoning. Our code, data, and models are available at https://geox-lab.github.io/Asking_like_Socrates
PDF41December 3, 2025