ChatPaper.aiChatPaper

MirrorBench : Un cadre extensible pour évaluer les agents mandataires utilisateur selon leur degré de ressemblance humaine

MirrorBench: An Extensible Framework to Evaluate User-Proxy Agents for Human-Likeness

January 13, 2026
papers.authors: Ashutosh Hathidara, Julien Yu, Vaishali Senthil, Sebastian Schreiber, Anil Babu Ankisettipalli
cs.AI

papers.abstract

Les grands modèles de langage (LLM) sont de plus en plus utilisés comme simulateurs humains, tant pour l'évaluation des systèmes conversationnels que pour la génération de données de fine-tuning. Cependant, l'invitation naïve à « agir comme un utilisateur » produit souvent des énoncés verbeux et irréalistes, soulignant la nécessité d'une évaluation rigoureuse des agents mandataires d'utilisateurs. Nous présentons MIRRORBENCH, un cadre d'évaluation reproductible et extensible qui évalue ces mandataires uniquement sur leur capacité à produire des énoncés utilisateurs réalistes dans diverses tâches conversationnelles, en les découplant explicitement de la réussite de la tâche en aval. MIRRORBENCH intègre un moteur d'exécution modulaire avec des interfaces typées, des registres pilotés par métadonnées, la prise en charge de multiples backends, la mise en cache et une solide observabilité. Le système prend en charge des mandataires d'utilisateurs, des jeux de données, des tâches et des métriques interchangeables, permettant aux chercheurs d'évaluer des simulateurs arbitraires dans un cadre uniforme et conscient de la variance. Nous incluons trois métriques de diversité lexicale (MATTR, K de YULE et HD-D) et trois métriques basées sur des juges LLM (GTEval, l'indiscernabilité par paires et Rubric-and-Reason). Sur quatre jeux de données ouverts, MIRRORBENCH produit des résultats tenant compte de la variance et révèle des écarts systématiques entre les mandataires d'utilisateurs et les utilisateurs humains réels. Le cadre est open source et comprend une interface en ligne de commande simple pour exécuter des expériences, gérer les configurations et la mise en cache, et générer des rapports. Le cadre est accessible à l'adresse https://github.com/SAP/mirrorbench.
English
Large language models (LLMs) are increasingly used as human simulators, both for evaluating conversational systems and for generating fine-tuning data. However, naive "act-as-a-user" prompting often yields verbose, unrealistic utterances, underscoring the need for principled evaluation of so-called user proxy agents. We present MIRRORBENCH, a reproducible, extensible benchmarking framework that evaluates user proxies solely on their ability to produce human-like user utterances across diverse conversational tasks, explicitly decoupled from downstream task success. MIRRORBENCH features a modular execution engine with typed interfaces, metadata-driven registries, multi-backend support, caching, and robust observability. The system supports pluggable user proxies, datasets, tasks, and metrics, enabling researchers to evaluate arbitrary simulators under a uniform, variance-aware harness. We include three lexical-diversity metrics (MATTR, YULE'S K, and HD-D) and three LLM-judge-based metrics (GTEval, Pairwise Indistinguishability, and Rubric-and-Reason). Across four open datasets, MIRRORBENCH yields variance-aware results and reveals systematic gaps between user proxies and real human users. The framework is open source and includes a simple command-line interface for running experiments, managing configurations and caching, and generating reports. The framework can be accessed at https://github.com/SAP/mirrorbench.
PDF12January 24, 2026