InMind : Évaluation des LLM dans la capture et l'application des styles de raisonnement individuels humains
InMind: Evaluating LLMs in Capturing and Applying Individual Human Reasoning Styles
August 22, 2025
papers.authors: Zizhen Li, Chuanhao Li, Yibin Wang, Qi Chen, Diping Song, Yukang Feng, Jianwen Sun, Jiaxin Ai, Fanrui Zhang, Mingzhu Sun, Kaipeng Zhang
cs.AI
papers.abstract
Les modèles de langage de grande taille (LLMs) ont démontré des performances solides dans les tâches de raisonnement centrées sur l'humain. Bien que les évaluations précédentes aient exploré si les LLMs peuvent inférer des intentions ou détecter la tromperie, elles négligent souvent les styles de raisonnement individualisés qui influencent la manière dont les personnes interprètent et agissent dans des contextes sociaux. Les jeux de déduction sociale (SDGs) offrent un terrain d'essai naturel pour évaluer ces styles de raisonnement individualisés, où différents joueurs peuvent adopter des stratégies de raisonnement diverses mais contextuellement valides dans des conditions identiques. Pour aborder cette question, nous introduisons InMind, un cadre d'évaluation fondé sur la cognition conçu pour déterminer si les LLMs peuvent capturer et appliquer des styles de raisonnement personnalisés dans les SDGs. InMind enrichit les données structurées de jeu avec des traces de stratégie au niveau des tours et des réflexions post-jeu, collectées à la fois en mode Observateur et Participant. Il prend en charge quatre tâches motivées par la cognition qui évaluent conjointement l'alignement statique et l'adaptation dynamique. En tant qu'étude de cas, nous appliquons InMind au jeu Avalon, évaluant 11 LLMs de pointe. Les LLMs à usage général, même GPT-4o, s'appuient fréquemment sur des indices lexicaux, peinant à ancrer les réflexions dans la temporalité du jeu ou à s'adapter aux stratégies évolutives. En revanche, les LLMs améliorés pour le raisonnement, comme DeepSeek-R1, montrent des signes précoces de raisonnement sensible au style. Ces résultats révèlent des limitations clés dans la capacité des LLMs actuels à effectuer un raisonnement individualisé et adaptatif, et positionnent InMind comme une étape vers une interaction humain-IA alignée sur la cognition.
English
LLMs have shown strong performance on human-centric reasoning tasks. While
previous evaluations have explored whether LLMs can infer intentions or detect
deception, they often overlook the individualized reasoning styles that
influence how people interpret and act in social contexts. Social deduction
games (SDGs) provide a natural testbed for evaluating individualized reasoning
styles, where different players may adopt diverse but contextually valid
reasoning strategies under identical conditions. To address this, we introduce
InMind, a cognitively grounded evaluation framework designed to assess whether
LLMs can capture and apply personalized reasoning styles in SDGs. InMind
enhances structured gameplay data with round-level strategy traces and
post-game reflections, collected under both Observer and Participant modes. It
supports four cognitively motivated tasks that jointly evaluate both static
alignment and dynamic adaptation. As a case study, we apply InMind to the game
Avalon, evaluating 11 state-of-the-art LLMs. General-purpose LLMs, even GPT-4o
frequently rely on lexical cues, struggling to anchor reflections in temporal
gameplay or adapt to evolving strategies. In contrast, reasoning-enhanced LLMs
like DeepSeek-R1 exhibit early signs of style-sensitive reasoning. These
findings reveal key limitations in current LLMs' capacity for individualized,
adaptive reasoning, and position InMind as a step toward cognitively aligned
human-AI interaction.