InMind: Valutazione delle LLM nella cattura e applicazione degli stili di ragionamento individuali umani
InMind: Evaluating LLMs in Capturing and Applying Individual Human Reasoning Styles
August 22, 2025
Autori: Zizhen Li, Chuanhao Li, Yibin Wang, Qi Chen, Diping Song, Yukang Feng, Jianwen Sun, Jiaxin Ai, Fanrui Zhang, Mingzhu Sun, Kaipeng Zhang
cs.AI
Abstract
I LLM hanno dimostrato prestazioni solide nei compiti di ragionamento incentrati sull'uomo. Mentre le valutazioni precedenti hanno esplorato se i LLM possano dedurre intenzioni o rilevare inganni, spesso trascurano gli stili di ragionamento individualizzati che influenzano come le persone interpretano e agiscono in contesti sociali. I giochi di deduzione sociale (SDG) offrono un terreno di prova naturale per valutare gli stili di ragionamento individualizzati, dove diversi giocatori possono adottare strategie di ragionamento diverse ma contestualmente valide in condizioni identiche. Per affrontare questo problema, introduciamo InMind, un framework di valutazione cognitivamente fondato progettato per valutare se i LLM possono catturare e applicare stili di ragionamento personalizzati negli SDG. InMind arricchisce i dati strutturati di gioco con tracce strategiche a livello di turno e riflessioni post-partita, raccolti sia in modalità Osservatore che Partecipante. Supporta quattro compiti motivati cognitivamente che valutano congiuntamente sia l'allineamento statico che l'adattamento dinamico. Come caso di studio, applichiamo InMind al gioco Avalon, valutando 11 LLM all'avanguardia. I LLM generici, persino GPT-4o, si affidano frequentemente a indizi lessicali, faticando ad ancorare le riflessioni nel gameplay temporale o ad adattarsi a strategie in evoluzione. Al contrario, LLM potenziati nel ragionamento come DeepSeek-R1 mostrano segni precoci di ragionamento sensibile allo stile. Questi risultati rivelano limitazioni chiave nella capacità dei LLM attuali di ragionamento individualizzato e adattivo, e posizionano InMind come un passo verso l'interazione uomo-IA allineata cognitivamente.
English
LLMs have shown strong performance on human-centric reasoning tasks. While
previous evaluations have explored whether LLMs can infer intentions or detect
deception, they often overlook the individualized reasoning styles that
influence how people interpret and act in social contexts. Social deduction
games (SDGs) provide a natural testbed for evaluating individualized reasoning
styles, where different players may adopt diverse but contextually valid
reasoning strategies under identical conditions. To address this, we introduce
InMind, a cognitively grounded evaluation framework designed to assess whether
LLMs can capture and apply personalized reasoning styles in SDGs. InMind
enhances structured gameplay data with round-level strategy traces and
post-game reflections, collected under both Observer and Participant modes. It
supports four cognitively motivated tasks that jointly evaluate both static
alignment and dynamic adaptation. As a case study, we apply InMind to the game
Avalon, evaluating 11 state-of-the-art LLMs. General-purpose LLMs, even GPT-4o
frequently rely on lexical cues, struggling to anchor reflections in temporal
gameplay or adapt to evolving strategies. In contrast, reasoning-enhanced LLMs
like DeepSeek-R1 exhibit early signs of style-sensitive reasoning. These
findings reveal key limitations in current LLMs' capacity for individualized,
adaptive reasoning, and position InMind as a step toward cognitively aligned
human-AI interaction.