SocialVeil:通信障壁下における言語エージェントの社会的知性の評価
SocialVeil: Probing Social Intelligence of Language Agents under Communication Barriers
February 4, 2026
著者: Keyang Xuan, Pengda Wang, Chongrui Ye, Haofei Yu, Tal August, Jiaxuan You
cs.AI
要旨
大規模言語モデル(LLM)の社会的知能を評価するため、対話型環境での評価が増加している。しかし、既存のベンチマークはエージェント間の理想化されたコミュニケーションを想定することが多く、より現実的な不完全な状況下でLLMが対話を維持・修復できるかを診断する能力が限られている。このギャップを埋めるため、我々は認知差に起因するコミュニケーション障壁下での社会的相互作用をシミュレート可能な社会学習環境「SocialVeil」を提案する。人間相互作用におけるコミュニケーション課題に関する系統的文献レビューに基づき、SocialVeilは意味的曖昧性、社会文化的ミスマッチ、感情的干渉という3つの代表的な障壁タイプを導入する。また、障壁を考慮した2つの評価指標(未解決混乱度と相互理解度)を導入し、障害されたコミュニケーション下での対話品質を評価する。720のシナリオと4つの先進的LLMを用いた実験では、障壁が一貫して性能を低下させ、相互理解度は平均45%以上減少、混乱度は約50%上昇することが示された。人間による評価はこれらのシミュレーション障壁の忠実度を検証した(ICC≈0.78、ピアソン相関r≈0.80)。さらに、適応戦略(修復指示と対話型学習)の効果が限定的であり、障壁のない性能には程遠いことを実証する。本研究は社会的相互作用環境を実世界のコミュニケーションに近づける一歩となり、LLMエージェントの社会的知能を探求する新たな可能性を開くものである。
English
Large language models (LLMs) are increasingly evaluated in interactive environments to test their social intelligence. However, existing benchmarks often assume idealized communication between agents, limiting our ability to diagnose whether LLMs can maintain and repair interactions in more realistic, imperfect settings. To close this gap, we present SocialVeil, a social learning environment that can simulate social interaction under cognitive-difference-induced communication barriers. Grounded in a systematic literature review of communication challenges in human interaction, SocialVeil introduces three representative types of such disruption, semantic vagueness, sociocultural mismatch, and emotional interference. We also introduce two barrier-aware evaluation metrics, unresolved confusion and mutual understanding, to evaluate interaction quality under impaired communication. Experiments across 720 scenarios and four frontier LLMs show that barriers consistently impair performance, with mutual understanding reduced by over 45\% on average, and confusion elevated by nearly 50\%. Human evaluations validate the fidelity of these simulated barriers (ICCapprox0.78, Pearson rapprox0.80). We further demonstrate that adaptation strategies (Repair Instruction and Interactive learning) only have a modest effect far from barrier-free performance. This work takes a step toward bringing social interaction environments closer to real-world communication, opening opportunities for exploring the social intelligence of LLM agents.