InMind : Évaluation des LLM dans la capture et l'application des styles de raisonnement individuels humains

papers.abstract

Les modèles de langage de grande taille (LLMs) ont démontré des performances solides dans les tâches de raisonnement centrées sur l'humain. Bien que les évaluations précédentes aient exploré si les LLMs peuvent inférer des intentions ou détecter la tromperie, elles négligent souvent les styles de raisonnement individualisés qui influencent la manière dont les personnes interprètent et agissent dans des contextes sociaux. Les jeux de déduction sociale (SDGs) offrent un terrain d'essai naturel pour évaluer ces styles de raisonnement individualisés, où différents joueurs peuvent adopter des stratégies de raisonnement diverses mais contextuellement valides dans des conditions identiques. Pour aborder cette question, nous introduisons InMind, un cadre d'évaluation fondé sur la cognition conçu pour déterminer si les LLMs peuvent capturer et appliquer des styles de raisonnement personnalisés dans les SDGs. InMind enrichit les données structurées de jeu avec des traces de stratégie au niveau des tours et des réflexions post-jeu, collectées à la fois en mode Observateur et Participant. Il prend en charge quatre tâches motivées par la cognition qui évaluent conjointement l'alignement statique et l'adaptation dynamique. En tant qu'étude de cas, nous appliquons InMind au jeu Avalon, évaluant 11 LLMs de pointe. Les LLMs à usage général, même GPT-4o, s'appuient fréquemment sur des indices lexicaux, peinant à ancrer les réflexions dans la temporalité du jeu ou à s'adapter aux stratégies évolutives. En revanche, les LLMs améliorés pour le raisonnement, comme DeepSeek-R1, montrent des signes précoces de raisonnement sensible au style. Ces résultats révèlent des limitations clés dans la capacité des LLMs actuels à effectuer un raisonnement individualisé et adaptatif, et positionnent InMind comme une étape vers une interaction humain-IA alignée sur la cognition.

English

LLMs have shown strong performance on human-centric reasoning tasks. While previous evaluations have explored whether LLMs can infer intentions or detect deception, they often overlook the individualized reasoning styles that influence how people interpret and act in social contexts. Social deduction games (SDGs) provide a natural testbed for evaluating individualized reasoning styles, where different players may adopt diverse but contextually valid reasoning strategies under identical conditions. To address this, we introduce InMind, a cognitively grounded evaluation framework designed to assess whether LLMs can capture and apply personalized reasoning styles in SDGs. InMind enhances structured gameplay data with round-level strategy traces and post-game reflections, collected under both Observer and Participant modes. It supports four cognitively motivated tasks that jointly evaluate both static alignment and dynamic adaptation. As a case study, we apply InMind to the game Avalon, evaluating 11 state-of-the-art LLMs. General-purpose LLMs, even GPT-4o frequently rely on lexical cues, struggling to anchor reflections in temporal gameplay or adapt to evolving strategies. In contrast, reasoning-enhanced LLMs like DeepSeek-R1 exhibit early signs of style-sensitive reasoning. These findings reveal key limitations in current LLMs' capacity for individualized, adaptive reasoning, and position InMind as a step toward cognitively aligned human-AI interaction.

InMind : Évaluation des LLM dans la capture et l'application des styles de raisonnement individuels humains

InMind: Evaluating LLMs in Capturing and Applying Individual Human Reasoning Styles

papers.abstract

Support