QUACK: Вопрошание, Понимание и Аудит Сообщаемого Знания в Мультимодальных Агентах Социальной Дедукции

Аннотация

Социально-дедуктивные игры стали популярной экспериментальной площадкой для исследования рассуждений, обмана, координации и моделирования убеждений в агентах на основе больших языковых моделей (LLM). Однако большинство сред оцениваются только по игровым исходам, таким как процент побед, и в основном ограничиваются текстовым взаимодействием, что затрудняет определение того, действительно ли язык агента основан на том, что он воспринял и сделал, или выявление сценариев сбоев, лежащих в основе его поведения. Для устранения этого пробела мы представляем QUACK — среду с открытым исходным кодом и платформу оценки для аудита обоснованности языковых высказываний агентов в мультимодальном социальном рассуждении. QUACK оценивает агентов на трех уровнях: игровые исходы, поведенческие траектории и согласованность на уровне высказываний. Его основная цепочка верификации утверждений реконструирует истинную траекторию каждого агента из журналов движка и проверяет каждое утверждение в обсуждении на соответствие ей, автоматически выявляя пространственные галлюцинации, необоснованные обвинения, коллапс обмана и несоответствие между языком и действиями. Оценивая три передовые VLM как в однородных, так и в кросомодельных состязательных сценариях, мы обнаружили, что даже сильнейший агент галлюцинирует 15,1% своих проверяемых пространственных утверждений и выдвигает более половины своих обвинений без обоснованных доказательств. Полный движок, платформа оценки, инструментарий и журналы доступны по адресу https://github.com/AAAAA-Academia-Attractions/QUACK.

English

Social deduction games have become a popular testbed for probing reasoning, deception, coordination, and belief modeling in Large Language Model (LLM) agents. However, most environments are scored only by game outcomes such as win rates and largely remain to text-only interaction, making it difficult to tell whether an agent's language is actually grounded in what it perceived and did, or to identify the failure modes underlying its behavior. To address this gap, we introduce QUACK, an open-source environment and evaluation framework for auditing the grounding of agent language in multimodal social reasoning. QUACK evaluates agents at three levels: game outcomes, behavioral trajectories, and utterance-level consistency. Its core Statement Verification Pipeline reconstructs each agent's ground-truth trajectory from engine logs and checks every discussion claim against it, automatically flagging spatial hallucination, unsupported accusation, deception collapse, and language-action inconsistency. Evaluating three frontier VLMs in both homogeneous and cross-model adversarial settings, we find that even the strongest agent hallucinates 15.1% of its verifiable spatial claims and makes over half of its accusations without grounded evidence. We release the full engine, evaluation framework, toolkit, and logs at https://github.com/AAAAA-Academia-Attractions/QUACK.