ChatPaper.aiChatPaper

소크라테스처럼 질문하기: 소크라테스가 원격탐사 영상 이해를 돕는 시각언어모델

Asking like Socrates: Socrates helps VLMs understand remote sensing images

November 27, 2025
저자: Run Shao, Ziyu Li, Zhaoyang Zhang, Linrui Xu, Xinran He, Hongyuan Yuan, Bolei He, Yongxing Dai, Yiming Yan, Yijun Chen, Wang Guo, Haifeng Li
cs.AI

초록

DeepSeek-R1에서 영감을 받은 최신 다중모달 추론 모델들은 시각-언어 시스템을 크게 발전시켰습니다. 그러나 원격 탐사(RS) 작업에서 우리는 모델이 시각적 증거에 기반해 정답으로 진정하게 추론하기보다는 추론 과정을 단순히 서술하는 보편적인 유사 추론(pseudo reasoning) 현상을 관찰합니다. 우리는 이를 대규모 원격 탐사 영상에 대한 단일/대략적 인식으로 인해 불완전한 이해가 발생하고 시각적 증거 대신 언어적 자기 일관성에 기반해 추론하는 '일견 효과(Glance Effect)'로 귀결합니다. 이를 해결하기 위해 우리는 언어 주도적, 반복적 시각 증거 탐색 패러다임인 RS-EoT(Remote Sensing Evidence-of-Thought)를 제안합니다. 이 패러다임을 구현하기 위해 우리는 추론과 시각 검사가 교대로 이루어지는 사이클을 통해 추론 흔적(reasoning traces)을 합성하는 자기 대결(self-play) 다중 에이전트 시스템인 SocraticAgent를 제안합니다. 이러한 패턴을 강화하고 일반화하기 위해 우리는 두 단계의 점진적 강화 학습(RL) 전략을 제안합니다. 첫째, RS-EoT 능력을 강화하기 위한 세분화된 Grounding 작업에 대한 RL, 그 다음 더 넓은 이해 시나리오로 일반화하기 위한 RS VQA에 대한 RL입니다. 실험 결과 RS-EoT는 여러 RS VQA 및 grounding 벤치마크에서 최첨단 성능을 달성함을 보여줍니다. 분석 결과, 추론과 증거 탐색의 명확한 반복적 사이클이 확인되어 RS-EoT가 일견 효과를 완화하고 진정한 증거 기반 추론을 가능하게 함을 입증합니다. 우리의 코드, 데이터 및 모델은 https://geox-lab.github.io/Asking_like_Socrates에서 확인할 수 있습니다.
English
Recent multimodal reasoning models, inspired by DeepSeek-R1, have significantly advanced vision-language systems. However, in remote sensing (RS) tasks, we observe widespread pseudo reasoning: models narrate the process of reasoning rather than genuinely reason toward the correct answer based on visual evidence. We attribute this to the Glance Effect, where a single, coarse perception of large-scale RS imagery results in incomplete understanding and reasoning based on linguistic self-consistency instead of visual evidence. To address this, we propose RS-EoT (Remote Sensing Evidence-of-Thought), a language-driven, iterative visual evidence-seeking paradigm. To instill this paradigm, we propose SocraticAgent, a self-play multi-agent system that synthesizes reasoning traces via alternating cycles of reasoning and visual inspection. To enhance and generalize these patterns, we propose a two-stage progressive RL strategy: first, RL on fine-grained Grounding tasks to enhance RS-EoT capabilities, followed by RL on RS VQA to generalize to broader understanding scenarios. Experiments show RS-EoT achieves state-of-the-art performance on multiple RS VQA and grounding benchmarks. Analyses reveal clear iterative cycles of reasoning and evidence seeking, confirming RS-EoT mitigates the Glance Effect and enables genuine evidence-grounded reasoning. Our code, data, and models are available at https://geox-lab.github.io/Asking_like_Socrates
PDF41December 3, 2025