ChatPaper.aiChatPaper

SocialVeil: 의사소통 장애 하에서 언어 에이전트의 사회적 지능 탐구

SocialVeil: Probing Social Intelligence of Language Agents under Communication Barriers

February 4, 2026
저자: Keyang Xuan, Pengda Wang, Chongrui Ye, Haofei Yu, Tal August, Jiaxuan You
cs.AI

초록

대규모 언어 모델(LLM)의 사회적 지능을 평가하기 위해 상호작용 환경에서의 평가가 점차 확대되고 있다. 그러나 기존 벤치마크는 에이전트 간 이상적인 의사소통을 전제로 하는 경우가 많아, 보다 현실적이고 불완전한 환경에서 LLM이 상호작용을 유지 및 복구할 수 있는지를 진단하는 데 한계가 있다. 이러한 격차를 해소하기 위해 우리는 인지적 차이로 인한 의사소통 장벽 하에서 사회적 상호작용을 시뮬레이션할 수 있는 사회적 학습 환경인 SocialVeil을 제안한다. SocialVeil은 인간 상호작용에서 발생하는 의사소통 문제에 대한 체계적 문헌 고찰에 기반하여, 대표적인 세 가지 장애 유형인 의미적 모호함, 사회문화적 불일치, 정서적 간섭을 도입한다. 또한 손상된 의사소통 하에서 상호작용 품질을 평가하기 위해 장벽 인식 평가 지표인 미해소 혼란과 상호 이해를 제안한다. 720개 시나리오와 4개의 최신 LLM을 대상으로 한 실험 결과, 장벽이 존재할 경우 성능이 지속적으로 저하되며 상호 이해는 평균 45% 이상 감소하고 혼란은 약 50% 가까이 증가하는 것으로 나타났다. 인간 평가를 통해 이러한 시뮬레이션 장벽의 현실성을 검증하였다(ICC≈0.78, Pearson r≈0.80). 더 나아가 적응 전략(수복 지시와 상호작용 학습)이 장벽이 없는 환경의 성능에 크게 미치지 못하는 제한적인 효과만 있는 것을 확인했다. 본 연구는 사회적 상호작용 환경을 실제 의사소통에 한 걸음 더 가까이 접근시키는 동시에, LLM 에이전트의 사회적 지능 탐구를 위한 기회를 열어준다는 의의가 있다.
English
Large language models (LLMs) are increasingly evaluated in interactive environments to test their social intelligence. However, existing benchmarks often assume idealized communication between agents, limiting our ability to diagnose whether LLMs can maintain and repair interactions in more realistic, imperfect settings. To close this gap, we present SocialVeil, a social learning environment that can simulate social interaction under cognitive-difference-induced communication barriers. Grounded in a systematic literature review of communication challenges in human interaction, SocialVeil introduces three representative types of such disruption, semantic vagueness, sociocultural mismatch, and emotional interference. We also introduce two barrier-aware evaluation metrics, unresolved confusion and mutual understanding, to evaluate interaction quality under impaired communication. Experiments across 720 scenarios and four frontier LLMs show that barriers consistently impair performance, with mutual understanding reduced by over 45\% on average, and confusion elevated by nearly 50\%. Human evaluations validate the fidelity of these simulated barriers (ICCapprox0.78, Pearson rapprox0.80). We further demonstrate that adaptation strategies (Repair Instruction and Interactive learning) only have a modest effect far from barrier-free performance. This work takes a step toward bringing social interaction environments closer to real-world communication, opening opportunities for exploring the social intelligence of LLM agents.
PDF146February 7, 2026