ChatPaper.aiChatPaper

Domandare come Socrate: l'approccio socratico per aiutare i modelli visione-linguaggio a comprendere immagini telerilevate

Asking like Socrates: Socrates helps VLMs understand remote sensing images

November 27, 2025
Autori: Run Shao, Ziyu Li, Zhaoyang Zhang, Linrui Xu, Xinran He, Hongyuan Yuan, Bolei He, Yongxing Dai, Yiming Yan, Yijun Chen, Wang Guo, Haifeng Li
cs.AI

Abstract

I recenti modelli di ragionamento multimodale, ispirati a DeepSeek-R1, hanno fatto progredire significativamente i sistemi visione-linguaggio. Tuttavia, nei compiti di telerilevamento (RS), osserviamo un diffuso pseudo-ragionamento: i modelli narrano il processo di ragionamento piuttosto che ragionare genuinamente verso la risposta corretta basandosi sull'evidenza visiva. Attribuiamo ciò all'Effetto Sguardo (Glance Effect), dove una singola percezione approssimativa di immagini RS su larga scala risulta in una comprensione incompleta e in un ragionamento basato sull'auto-consistenza linguistica invece che sull'evidenza visiva. Per affrontare questo problema, proponiamo RS-EoT (Remote Sensing Evidence-of-Thought), un paradigma iterativo guidato dal linguaggio per la ricerca di evidenza visiva. Per instillar questo paradigma, proponiamo SocraticAgent, un sistema multi-agente a gioco autonomo che sintetizza tracce di ragionamento attraverso cicli alternati di ragionamento e ispezione visiva. Per potenziare e generalizzare questi pattern, proponiamo una strategia RL progressiva in due fasi: prima, RL su compiti di Grounding granulari per potenziare le capacità RS-EoT, seguita da RL su RS VQA per generalizzare a scenari di comprensione più ampi. Gli esperimenti mostrano che RS-EoT raggiunge prestazioni state-of-the-art su molteplici benchmark di RS VQA e grounding. Le analisi rivelano chiari cicli iterativi di ragionamento e ricerca di evidenza, confermando che RS-EoT mitiga l'Effetto Sguardo e abilita un ragionamento genuinamente fondato sull'evidenza. Il nostro codice, dati e modelli sono disponibili su https://geox-lab.github.io/Asking_like_Socrates.
English
Recent multimodal reasoning models, inspired by DeepSeek-R1, have significantly advanced vision-language systems. However, in remote sensing (RS) tasks, we observe widespread pseudo reasoning: models narrate the process of reasoning rather than genuinely reason toward the correct answer based on visual evidence. We attribute this to the Glance Effect, where a single, coarse perception of large-scale RS imagery results in incomplete understanding and reasoning based on linguistic self-consistency instead of visual evidence. To address this, we propose RS-EoT (Remote Sensing Evidence-of-Thought), a language-driven, iterative visual evidence-seeking paradigm. To instill this paradigm, we propose SocraticAgent, a self-play multi-agent system that synthesizes reasoning traces via alternating cycles of reasoning and visual inspection. To enhance and generalize these patterns, we propose a two-stage progressive RL strategy: first, RL on fine-grained Grounding tasks to enhance RS-EoT capabilities, followed by RL on RS VQA to generalize to broader understanding scenarios. Experiments show RS-EoT achieves state-of-the-art performance on multiple RS VQA and grounding benchmarks. Analyses reveal clear iterative cycles of reasoning and evidence seeking, confirming RS-EoT mitigates the Glance Effect and enables genuine evidence-grounded reasoning. Our code, data, and models are available at https://geox-lab.github.io/Asking_like_Socrates
PDF41December 3, 2025