QUACK: Cuestionamiento, Comprensión y Auditoría del Conocimiento Comunicado en Agentes Multimodales de Deducción Social

Resumen

Los juegos de deducción social se han convertido en un campo de prueba popular para investigar el razonamiento, el engaño, la coordinación y el modelado de creencias en agentes basados en modelos de lenguaje de gran escala (LLM). Sin embargo, la mayoría de los entornos se evalúan únicamente mediante resultados del juego, como las tasas de victoria, y se limitan en gran medida a la interacción textual, lo que dificulta determinar si el lenguaje de un agente está realmente fundamentado en lo que percibió e hizo, o identificar los modos de fallo subyacentes a su comportamiento. Para abordar esta carencia, presentamos QUACK, un entorno de código abierto y un marco de evaluación para auditar la fundamentación del lenguaje de los agentes en el razonamiento social multimodal. QUACK evalúa a los agentes en tres niveles: resultados del juego, trayectorias conductuales y consistencia a nivel de enunciados. Su núcleo, el Pipeline de Verificación de Afirmaciones, reconstruye la trayectoria real de cada agente a partir de los registros del motor y contrasta cada afirmación de la discusión con dicha trayectoria, señalando automáticamente alucinaciones espaciales, acusaciones no fundamentadas, colapsos de engaño e inconsistencias entre lenguaje y acción. Al evaluar tres VLMs de frontera tanto en entornos homogéneos como adversariales entre modelos, encontramos que incluso el agente más fuerte alucina el 15,1% de sus afirmaciones espaciales verificables y realiza más de la mitad de sus acusaciones sin evidencia fundamentada. Publicamos el motor completo, el marco de evaluación, el conjunto de herramientas y los registros en https://github.com/AAAAA-Academia-Attractions/QUACK.

English

Social deduction games have become a popular testbed for probing reasoning, deception, coordination, and belief modeling in Large Language Model (LLM) agents. However, most environments are scored only by game outcomes such as win rates and largely remain to text-only interaction, making it difficult to tell whether an agent's language is actually grounded in what it perceived and did, or to identify the failure modes underlying its behavior. To address this gap, we introduce QUACK, an open-source environment and evaluation framework for auditing the grounding of agent language in multimodal social reasoning. QUACK evaluates agents at three levels: game outcomes, behavioral trajectories, and utterance-level consistency. Its core Statement Verification Pipeline reconstructs each agent's ground-truth trajectory from engine logs and checks every discussion claim against it, automatically flagging spatial hallucination, unsupported accusation, deception collapse, and language-action inconsistency. Evaluating three frontier VLMs in both homogeneous and cross-model adversarial settings, we find that even the strongest agent hallucinates 15.1% of its verifiable spatial claims and makes over half of its accusations without grounded evidence. We release the full engine, evaluation framework, toolkit, and logs at https://github.com/AAAAA-Academia-Attractions/QUACK.