QUACK: マルチモーダル社会的推理エージェントにおけるコミュニケーション知識の疑問視、理解、監査
QUACK: Questioning, Understanding, and Auditing Communicated Knowledge in Multimodal Social Deduction Agents
May 26, 2026
著者: Ye Yuan, Rui Song, Weien Li, Zeyu Li, Haochen Liu, Xiangyu Kong, Changjiang Han, Yonghan Yang, Zichen Zhao, Zixuan Dong, Fuyuan Lyu, Bowei He, Haolun Wu, Jikun Kang, Xue Liu
cs.AI
要旨
ソーシャル・ディダクションゲームは、大規模言語モデル(LLM)エージェントにおける推論、欺瞞、協調、信念モデリングを探求するための人気のあるテストベッドとなっている。しかしながら、ほとんどの環境は勝率などのゲーム結果のみで評価され、テキストのみの相互作用に留まることが多く、エージェントの言語が実際にその知覚や行動に基づいているのか、あるいはその行動の背後にある失敗モードを特定することが困難である。このギャップに対処するため、我々はQUACKを導入する。これは、マルチモーダルな社会的推論におけるエージェント言語の接地を監査するためのオープンソース環境および評価フレームワークである。QUACKはエージェントをゲーム結果、行動軌跡、発話レベルの一貫性の3つの水準で評価する。その中核であるステートメント検証パイプラインは、エンジンログから各エージェントの真の行動軌跡を再構築し、それに対してすべての議論中の主張を照合することで、空間的幻覚、根拠のない非難、欺瞞の崩壊、言語と行動の不一致を自動的に検出する。3つの最先端VLMを同種および異種モデルが混在する敵対的設定の両方で評価した結果、最も強力なエージェントでさえ、検証可能な空間的主張の15.1%に幻覚を生じさせ、非難の半数以上を根拠のないまま行っていることが明らかになった。我々は、完全なエンジン、評価フレームワーク、ツールキット、ログをhttps://github.com/AAAAA-Academia-Attractions/QUACK で公開する。
English
Social deduction games have become a popular testbed for probing reasoning, deception, coordination, and belief modeling in Large Language Model (LLM) agents. However, most environments are scored only by game outcomes such as win rates and largely remain to text-only interaction, making it difficult to tell whether an agent's language is actually grounded in what it perceived and did, or to identify the failure modes underlying its behavior. To address this gap, we introduce QUACK, an open-source environment and evaluation framework for auditing the grounding of agent language in multimodal social reasoning. QUACK evaluates agents at three levels: game outcomes, behavioral trajectories, and utterance-level consistency. Its core Statement Verification Pipeline reconstructs each agent's ground-truth trajectory from engine logs and checks every discussion claim against it, automatically flagging spatial hallucination, unsupported accusation, deception collapse, and language-action inconsistency. Evaluating three frontier VLMs in both homogeneous and cross-model adversarial settings, we find that even the strongest agent hallucinates 15.1% of its verifiable spatial claims and makes over half of its accusations without grounded evidence. We release the full engine, evaluation framework, toolkit, and logs at https://github.com/AAAAA-Academia-Attractions/QUACK.