InMind: Bewertung von LLMs bei der Erfassung und Anwendung individueller menschlicher Denkstile
InMind: Evaluating LLMs in Capturing and Applying Individual Human Reasoning Styles
August 22, 2025
papers.authors: Zizhen Li, Chuanhao Li, Yibin Wang, Qi Chen, Diping Song, Yukang Feng, Jianwen Sun, Jiaxin Ai, Fanrui Zhang, Mingzhu Sun, Kaipeng Zhang
cs.AI
papers.abstract
LLMs haben eine starke Leistung bei menschenzentrierten Denkaufgaben gezeigt. Während frühere Bewertungen untersucht haben, ob LLMs Absichten ableiten oder Täuschung erkennen können, übersehen sie oft die individuellen Denkstile, die beeinflussen, wie Menschen soziale Kontexte interpretieren und handeln. Sozialdeduktionsspiele (SDGs) bieten ein natürliches Testumfeld für die Bewertung individueller Denkstile, bei dem verschiedene Spieler unter identischen Bedingungen unterschiedliche, aber kontextuell gültige Denkstrategien anwenden können. Um dies zu adressieren, führen wir InMind ein, einen kognitiv fundierten Bewertungsrahmen, der darauf abzielt, zu beurteilen, ob LLMs personalisierte Denkstile in SDGs erfassen und anwenden können. InMind erweitert strukturierte Spieledaten mit rundenbasierten Strategieverläufen und Nachspielreflexionen, die sowohl im Beobachter- als auch im Teilnehmermodus gesammelt werden. Es unterstützt vier kognitiv motivierte Aufgaben, die sowohl statische Ausrichtung als auch dynamische Anpassung gemeinsam bewerten. Als Fallstudie wenden wir InMind auf das Spiel Avalon an und bewerten 11 state-of-the-art LLMs. Allgemeine LLMs, selbst GPT-4o, verlassen sich häufig auf lexikalische Hinweise und haben Schwierigkeiten, Reflexionen im zeitlichen Spielverlauf zu verankern oder sich an sich entwickelnde Strategien anzupassen. Im Gegensatz dazu zeigen reasoning-verstärkte LLMs wie DeepSeek-R1 frühe Anzeichen von stil-sensiblem Denken. Diese Ergebnisse offenbaren wesentliche Einschränkungen in der Fähigkeit aktueller LLMs zu individuellem, adaptivem Denken und positionieren InMind als einen Schritt hin zu kognitiv ausgerichteter Mensch-KI-Interaktion.
English
LLMs have shown strong performance on human-centric reasoning tasks. While
previous evaluations have explored whether LLMs can infer intentions or detect
deception, they often overlook the individualized reasoning styles that
influence how people interpret and act in social contexts. Social deduction
games (SDGs) provide a natural testbed for evaluating individualized reasoning
styles, where different players may adopt diverse but contextually valid
reasoning strategies under identical conditions. To address this, we introduce
InMind, a cognitively grounded evaluation framework designed to assess whether
LLMs can capture and apply personalized reasoning styles in SDGs. InMind
enhances structured gameplay data with round-level strategy traces and
post-game reflections, collected under both Observer and Participant modes. It
supports four cognitively motivated tasks that jointly evaluate both static
alignment and dynamic adaptation. As a case study, we apply InMind to the game
Avalon, evaluating 11 state-of-the-art LLMs. General-purpose LLMs, even GPT-4o
frequently rely on lexical cues, struggling to anchor reflections in temporal
gameplay or adapt to evolving strategies. In contrast, reasoning-enhanced LLMs
like DeepSeek-R1 exhibit early signs of style-sensitive reasoning. These
findings reveal key limitations in current LLMs' capacity for individualized,
adaptive reasoning, and position InMind as a step toward cognitively aligned
human-AI interaction.