QUACK: Hinterfragen, Verstehen und Überprüfen von kommuniziertem Wissen in multimodalen sozialen Deduktionsagenten

Zusammenfassung

Soziale Deduktionsspiele haben sich zu einem beliebten Testfeld entwickelt, um Reasoning, Täuschung, Koordination und Glaubensmodellierung in Large-Language-Modell-Agenten (LLM-Agenten) zu untersuchen. Die meisten Umgebungen werden jedoch nur anhand von Spielergebnissen wie Gewinnraten bewertet und beschränken sich weitgehend auf textbasierte Interaktion, was es schwierig macht, festzustellen, ob die Sprache eines Agenten tatsächlich in dem verankert ist, was er wahrgenommen und getan hat, oder die Fehlermodi zu identifizieren, die seinem Verhalten zugrunde liegen. Um diese Lücke zu schließen, stellen wir QUACK vor, eine Open-Source-Umgebung und ein Evaluierungsframework zur Überprüfung der Verankerung von Agentensprache im multimodalen sozialen Denken. QUACK bewertet Agenten auf drei Ebenen: Spieleergebnisse, Verhaltensverläufe und Äußerungskonsistenz. Seine zentrale Aussageverifikationspipeline rekonstruiert den tatsächlichen Verlauf jedes Agenten aus den Engine-Logs und überprüft jede Diskussionsbehauptung daraufhin, wobei automatisch räumliche Halluzinationen, unbegründete Beschuldigungen, Täuschungskollaps und Sprach-Handlungs-Inkonsistenzen gekennzeichnet werden. Bei der Evaluierung von drei führenden VLMs in sowohl homogenen als auch modellübergreifenden adversarialen Umgebungen stellen wir fest, dass selbst der stärkste Agent 15,1 % seiner überprüfbaren räumlichen Behauptungen halluziniert und über die Hälfte seiner Beschuldigungen ohne fundierte Beweise vorbringt. Wir veröffentlichen die vollständige Engine, das Evaluierungsframework, das Toolkit und die Logs unter https://github.com/AAAAA-Academia-Attractions/QUACK.

English

Social deduction games have become a popular testbed for probing reasoning, deception, coordination, and belief modeling in Large Language Model (LLM) agents. However, most environments are scored only by game outcomes such as win rates and largely remain to text-only interaction, making it difficult to tell whether an agent's language is actually grounded in what it perceived and did, or to identify the failure modes underlying its behavior. To address this gap, we introduce QUACK, an open-source environment and evaluation framework for auditing the grounding of agent language in multimodal social reasoning. QUACK evaluates agents at three levels: game outcomes, behavioral trajectories, and utterance-level consistency. Its core Statement Verification Pipeline reconstructs each agent's ground-truth trajectory from engine logs and checks every discussion claim against it, automatically flagging spatial hallucination, unsupported accusation, deception collapse, and language-action inconsistency. Evaluating three frontier VLMs in both homogeneous and cross-model adversarial settings, we find that even the strongest agent hallucinates 15.1% of its verifiable spatial claims and makes over half of its accusations without grounded evidence. We release the full engine, evaluation framework, toolkit, and logs at https://github.com/AAAAA-Academia-Attractions/QUACK.