ChatPaper.aiChatPaper

InMind: 개별 인간의 사고 스타일을 포착하고 적용하는 데 있어 LLM 평가

InMind: Evaluating LLMs in Capturing and Applying Individual Human Reasoning Styles

August 22, 2025
저자: Zizhen Li, Chuanhao Li, Yibin Wang, Qi Chen, Diping Song, Yukang Feng, Jianwen Sun, Jiaxin Ai, Fanrui Zhang, Mingzhu Sun, Kaipeng Zhang
cs.AI

초록

LLM(대형 언어 모델)은 인간 중심의 추론 작업에서 강력한 성능을 보여왔습니다. 이전 평가들은 LLM이 의도를 추론하거나 속임수를 탐지할 수 있는지 탐구했지만, 종종 사회적 맥락에서 사람들이 어떻게 해석하고 행동하는지에 영향을 미치는 개별화된 추론 스타일을 간과했습니다. 사회적 추론 게임(SDG)은 개별화된 추론 스타일을 평가하기 위한 자연스러운 테스트베드를 제공하며, 동일한 조건에서도 다양한 플레이어들이 상황에 맞는 다양한 추론 전략을 채택할 수 있습니다. 이를 해결하기 위해, 우리는 LLM이 SDG에서 개인화된 추론 스타일을 포착하고 적용할 수 있는지를 평가하기 위해 인지적으로 기반을 둔 평가 프레임워크인 InMind를 소개합니다. InMind는 구조화된 게임 플레이 데이터에 라운드별 전략 추적과 게임 후 반영을 추가하며, 관찰자 모드와 참가자 모드에서 수집된 데이터를 활용합니다. 이 프레임워크는 정적 정렬과 동적 적응을 함께 평가하는 네 가지 인지적으로 동기 부여된 작업을 지원합니다. 사례 연구로서, 우리는 InMind를 Avalon 게임에 적용하여 11개의 최신 LLM을 평가했습니다. 범용 LLM, 심지어 GPT-4o도 자주 어휘적 단서에 의존하며, 시간적 게임 플레이에 반영을 고정하거나 진화하는 전략에 적응하는 데 어려움을 겪었습니다. 반면, DeepSeek-R1과 같은 추론 강화 LLM은 스타일 민감적 추론의 초기 징후를 보였습니다. 이러한 발견들은 현재 LLM의 개별화된 적응적 추론 능력의 주요 한계를 드러내며, InMind를 인지적으로 조정된 인간-AI 상호작용을 향한 한 걸음으로 위치시킵니다.
English
LLMs have shown strong performance on human-centric reasoning tasks. While previous evaluations have explored whether LLMs can infer intentions or detect deception, they often overlook the individualized reasoning styles that influence how people interpret and act in social contexts. Social deduction games (SDGs) provide a natural testbed for evaluating individualized reasoning styles, where different players may adopt diverse but contextually valid reasoning strategies under identical conditions. To address this, we introduce InMind, a cognitively grounded evaluation framework designed to assess whether LLMs can capture and apply personalized reasoning styles in SDGs. InMind enhances structured gameplay data with round-level strategy traces and post-game reflections, collected under both Observer and Participant modes. It supports four cognitively motivated tasks that jointly evaluate both static alignment and dynamic adaptation. As a case study, we apply InMind to the game Avalon, evaluating 11 state-of-the-art LLMs. General-purpose LLMs, even GPT-4o frequently rely on lexical cues, struggling to anchor reflections in temporal gameplay or adapt to evolving strategies. In contrast, reasoning-enhanced LLMs like DeepSeek-R1 exhibit early signs of style-sensitive reasoning. These findings reveal key limitations in current LLMs' capacity for individualized, adaptive reasoning, and position InMind as a step toward cognitively aligned human-AI interaction.
PDF12August 25, 2025