QUACK : Questionnement, Compréhension et Audit des Connaissances Communiquées dans les Agents de Déduction Sociale Multimodaux

Résumé

Les jeux de déduction sociale sont devenus un banc d'essai populaire pour sonder le raisonnement, la tromperie, la coordination et la modélisation des croyances dans les agents basés sur des modèles de langage de grande taille (LLM). Cependant, la plupart des environnements ne sont évalués que par les résultats des jeux, comme les taux de victoire, et restent largement limités à une interaction textuelle, ce qui rend difficile de déterminer si le langage d'un agent est réellement ancré dans ce qu'il a perçu et fait, ou d'identifier les modes de défaillance sous-jacents à son comportement. Pour combler cette lacune, nous présentons QUACK, un environnement open source et un cadre d'évaluation pour auditer l'ancrage du langage des agents dans le raisonnement social multimodal. QUACK évalue les agents à trois niveaux : les résultats des jeux, les trajectoires comportementales et la cohérence au niveau des énoncés. Son pipeline central de vérification des déclarations reconstruit la trajectoire de vérité terrain de chaque agent à partir des journaux du moteur et vérifie chaque affirmation de discussion par rapport à celle-ci, signalant automatiquement les hallucinations spatiales, les accusations non fondées, l'effondrement de la tromperie et l'incohérence entre le langage et l'action. En évaluant trois VLMs de pointe dans des configurations adverses homogènes et inter-modèles, nous constatons que même l'agent le plus performant hallucine 15,1 % de ses affirmations spatiales vérifiables et formule plus de la moitié de ses accusations sans preuve fondée. Nous publions l'intégralité du moteur, du cadre d'évaluation, de la boîte à outils et des journaux sur https://github.com/AAAAA-Academia-Attractions/QUACK.

English

Social deduction games have become a popular testbed for probing reasoning, deception, coordination, and belief modeling in Large Language Model (LLM) agents. However, most environments are scored only by game outcomes such as win rates and largely remain to text-only interaction, making it difficult to tell whether an agent's language is actually grounded in what it perceived and did, or to identify the failure modes underlying its behavior. To address this gap, we introduce QUACK, an open-source environment and evaluation framework for auditing the grounding of agent language in multimodal social reasoning. QUACK evaluates agents at three levels: game outcomes, behavioral trajectories, and utterance-level consistency. Its core Statement Verification Pipeline reconstructs each agent's ground-truth trajectory from engine logs and checks every discussion claim against it, automatically flagging spatial hallucination, unsupported accusation, deception collapse, and language-action inconsistency. Evaluating three frontier VLMs in both homogeneous and cross-model adversarial settings, we find that even the strongest agent hallucinates 15.1% of its verifiable spatial claims and makes over half of its accusations without grounded evidence. We release the full engine, evaluation framework, toolkit, and logs at https://github.com/AAAAA-Academia-Attractions/QUACK.