InMind: Bewertung von LLMs bei der Erfassung und Anwendung individueller menschlicher Denkstile

papers.abstract

LLMs haben eine starke Leistung bei menschenzentrierten Denkaufgaben gezeigt. Während frühere Bewertungen untersucht haben, ob LLMs Absichten ableiten oder Täuschung erkennen können, übersehen sie oft die individuellen Denkstile, die beeinflussen, wie Menschen soziale Kontexte interpretieren und handeln. Sozialdeduktionsspiele (SDGs) bieten ein natürliches Testumfeld für die Bewertung individueller Denkstile, bei dem verschiedene Spieler unter identischen Bedingungen unterschiedliche, aber kontextuell gültige Denkstrategien anwenden können. Um dies zu adressieren, führen wir InMind ein, einen kognitiv fundierten Bewertungsrahmen, der darauf abzielt, zu beurteilen, ob LLMs personalisierte Denkstile in SDGs erfassen und anwenden können. InMind erweitert strukturierte Spieledaten mit rundenbasierten Strategieverläufen und Nachspielreflexionen, die sowohl im Beobachter- als auch im Teilnehmermodus gesammelt werden. Es unterstützt vier kognitiv motivierte Aufgaben, die sowohl statische Ausrichtung als auch dynamische Anpassung gemeinsam bewerten. Als Fallstudie wenden wir InMind auf das Spiel Avalon an und bewerten 11 state-of-the-art LLMs. Allgemeine LLMs, selbst GPT-4o, verlassen sich häufig auf lexikalische Hinweise und haben Schwierigkeiten, Reflexionen im zeitlichen Spielverlauf zu verankern oder sich an sich entwickelnde Strategien anzupassen. Im Gegensatz dazu zeigen reasoning-verstärkte LLMs wie DeepSeek-R1 frühe Anzeichen von stil-sensiblem Denken. Diese Ergebnisse offenbaren wesentliche Einschränkungen in der Fähigkeit aktueller LLMs zu individuellem, adaptivem Denken und positionieren InMind als einen Schritt hin zu kognitiv ausgerichteter Mensch-KI-Interaktion.

English

LLMs have shown strong performance on human-centric reasoning tasks. While previous evaluations have explored whether LLMs can infer intentions or detect deception, they often overlook the individualized reasoning styles that influence how people interpret and act in social contexts. Social deduction games (SDGs) provide a natural testbed for evaluating individualized reasoning styles, where different players may adopt diverse but contextually valid reasoning strategies under identical conditions. To address this, we introduce InMind, a cognitively grounded evaluation framework designed to assess whether LLMs can capture and apply personalized reasoning styles in SDGs. InMind enhances structured gameplay data with round-level strategy traces and post-game reflections, collected under both Observer and Participant modes. It supports four cognitively motivated tasks that jointly evaluate both static alignment and dynamic adaptation. As a case study, we apply InMind to the game Avalon, evaluating 11 state-of-the-art LLMs. General-purpose LLMs, even GPT-4o frequently rely on lexical cues, struggling to anchor reflections in temporal gameplay or adapt to evolving strategies. In contrast, reasoning-enhanced LLMs like DeepSeek-R1 exhibit early signs of style-sensitive reasoning. These findings reveal key limitations in current LLMs' capacity for individualized, adaptive reasoning, and position InMind as a step toward cognitively aligned human-AI interaction.

InMind: Bewertung von LLMs bei der Erfassung und Anwendung individueller menschlicher Denkstile

InMind: Evaluating LLMs in Capturing and Applying Individual Human Reasoning Styles

papers.abstract

Support