QUACK: Vragen, begrijpen en auditeren van gecommuniceerde kennis in multimodale sociale deductieagenten

Samenvatting

Sociale deductiespellen zijn een populaire testomgeving geworden voor het onderzoeken van redeneren, bedrog, coördinatie en overtuigingsmodellering in Large Language Model (LLM)-agenten. De meeste omgevingen worden echter alleen gescoord op speluitkomsten zoals winstpercentages en blijven grotendeels beperkt tot tekstuele interactie, waardoor het moeilijk is vast te stellen of de taal van een agent daadwerkelijk verankerd is in wat hij waarnam en deed, of om de faalwijzen te identificeren die aan zijn gedrag ten grondslag liggen. Om deze lacune aan te pakken, introduceren we QUACK, een open-source omgeving en evaluatiekader voor het auditen van de verankering van agenttaal in multimodale sociale redenering. QUACK evalueert agenten op drie niveaus: speluitkomsten, gedragstrajecten en uitingconsistentie op uitingniveau. De kern, de Statement Verification Pipeline, reconstrueert het werkelijke traject van elke agent uit engine-logs en controleert elke discussieclaim hiertegen, waarbij automatisch ruimtelijke hallucinatie, ongegronde beschuldiging, bedrogineenstorting en taal-actie-inconsistentie worden gemarkeerd. Bij het evalueren van drie geavanceerde VLM's in zowel homogene als cross-model adversarial settings, vinden we dat zelfs de sterkste agent 15,1% van zijn verifieerbare ruimtelijke claims hallucineert en meer dan de helft van zijn beschuldigingen zonder gegronde onderbouwing uit. We publiceren de volledige engine, het evaluatiekader, de toolkit en de logs op https://github.com/AAAAA-Academia-Attractions/QUACK.

English

Social deduction games have become a popular testbed for probing reasoning, deception, coordination, and belief modeling in Large Language Model (LLM) agents. However, most environments are scored only by game outcomes such as win rates and largely remain to text-only interaction, making it difficult to tell whether an agent's language is actually grounded in what it perceived and did, or to identify the failure modes underlying its behavior. To address this gap, we introduce QUACK, an open-source environment and evaluation framework for auditing the grounding of agent language in multimodal social reasoning. QUACK evaluates agents at three levels: game outcomes, behavioral trajectories, and utterance-level consistency. Its core Statement Verification Pipeline reconstructs each agent's ground-truth trajectory from engine logs and checks every discussion claim against it, automatically flagging spatial hallucination, unsupported accusation, deception collapse, and language-action inconsistency. Evaluating three frontier VLMs in both homogeneous and cross-model adversarial settings, we find that even the strongest agent hallucinates 15.1% of its verifiable spatial claims and makes over half of its accusations without grounded evidence. We release the full engine, evaluation framework, toolkit, and logs at https://github.com/AAAAA-Academia-Attractions/QUACK.