ChatPaper.aiChatPaper

QUACK: 다중 모드 사회적 추론 에이전트에서 전달된 지식의 질문, 이해 및 감사

QUACK: Questioning, Understanding, and Auditing Communicated Knowledge in Multimodal Social Deduction Agents

May 26, 2026
저자: Ye Yuan, Rui Song, Weien Li, Zeyu Li, Haochen Liu, Xiangyu Kong, Changjiang Han, Yonghan Yang, Zichen Zhao, Zixuan Dong, Fuyuan Lyu, Bowei He, Haolun Wu, Jikun Kang, Xue Liu
cs.AI

초록

소셜 디덕션 게임은 대규모 언어 모델(LLM) 에이전트의 추론, 기만, 협력 및 신념 모델링을 탐구하기 위한 인기 있는 테스트베드가 되어 왔다. 그러나 대부분의 환경은 승률과 같은 게임 결과로만 평가되며, 주로 텍스트 기반 상호작용에 머물러 있어, 에이전트의 언어가 실제로 인지하고 행동한 내용에 근거하는지, 혹은 행동의 기저에 있는 실패 모드를 식별하기 어렵다. 이러한 격차를 해소하기 위해, 우리는 다중 모달 사회적 추론에서 에이전트 언어의 근거(grounding)를 감사(audit)하기 위한 오픈소스 환경 및 평가 프레임워크인 QUACK을 소개한다. QUACK은 게임 결과, 행동 궤적, 발화 수준의 일관성이라는 세 가지 수준에서 에이전트를 평가한다. 핵심 요소인 주장 검증 파이프라인(Statement Verification Pipeline)은 엔진 로그에서 각 에이전트의 실제 궤적을 재구성하고, 모든 토론 주장을 이와 대조하여 공간적 환각(spatial hallucination), 근거 없는 비난, 기만 붕괴, 언어-행동 불일치를 자동으로 식별한다. 동일 모델 및 교차 모델 적대 설정에서 세 가지 최첨단 VLM을 평가한 결과, 가장 강력한 에이전트조차 검증 가능한 공간적 주장의 15.1%에서 환각을 보였고, 비난의 절반 이상을 근거 없이 수행했다. 전체 엔진, 평가 프레임워크, 툴킷 및 로그는 https://github.com/AAAAA-Academia-Attractions/QUACK에서 공개한다.
English
Social deduction games have become a popular testbed for probing reasoning, deception, coordination, and belief modeling in Large Language Model (LLM) agents. However, most environments are scored only by game outcomes such as win rates and largely remain to text-only interaction, making it difficult to tell whether an agent's language is actually grounded in what it perceived and did, or to identify the failure modes underlying its behavior. To address this gap, we introduce QUACK, an open-source environment and evaluation framework for auditing the grounding of agent language in multimodal social reasoning. QUACK evaluates agents at three levels: game outcomes, behavioral trajectories, and utterance-level consistency. Its core Statement Verification Pipeline reconstructs each agent's ground-truth trajectory from engine logs and checks every discussion claim against it, automatically flagging spatial hallucination, unsupported accusation, deception collapse, and language-action inconsistency. Evaluating three frontier VLMs in both homogeneous and cross-model adversarial settings, we find that even the strongest agent hallucinates 15.1% of its verifiable spatial claims and makes over half of its accusations without grounded evidence. We release the full engine, evaluation framework, toolkit, and logs at https://github.com/AAAAA-Academia-Attractions/QUACK.