MirrorBench: Een Uitbreidbaar Framework voor de Evaluatie van User-Proxy Agents op Menselijkheid

Samenvatting

Grote taalmodellen (LLM's) worden steeds vaker gebruikt als menselijke simulators, zowel voor het evalueren van conversatiesystemen als voor het genereren van fijnstemmingsdata. Naïeve prompts om 'als gebruiker op te treden' leveren echter vaak breedsprakige, onrealistische uitingen op, wat de noodzaak onderstreept van een principiële evaluatie van zogenaamde user proxy agents. Wij presenteren MIRRORBENCH, een reproduceerbaar, uitbreidbaar benchmarkframework dat user proxies uitsluitend evalueert op hun vermogen om mensachtige gebruikersuitingen te produceren voor diverse conversatietaken, expliciet losgekoppeld van het succes bij de downstream-taak. MIRRORBENCH beschikt over een modulaire uitvoeringsengine met getypeerde interfaces, metadata-gestuurde registers, ondersteuning voor meerdere backends, caching en robuuste observeerbaarheid. Het systeem ondersteunt pluggable user proxies, datasets, taken en metrieken, waardoor onderzoekers willekeurige simulators kunnen evalueren binnen een uniform, variantiebewust kader. Wij hebben drie lexicale-diversiteitsmetrieken (MATTR, YULE'S K en HD-D) en drie op LLM-beoordeling gebaseerde metrieken (GTEval, Paarsgewijze Ononderscheidbaarheid en Rubric-and-Reason) opgenomen. Over vier open datasets heen levert MIRRORBENCH variantiebewuste resultaten op en onthult het systematische kloofjes tussen user proxies en echte menselijke gebruikers. Het framework is open source en bevat een eenvoudige command-line interface voor het uitvoeren van experimenten, beheren van configuraties en caching, en genereren van rapporten. Het framework is toegankelijk op https://github.com/SAP/mirrorbench.

English

Large language models (LLMs) are increasingly used as human simulators, both for evaluating conversational systems and for generating fine-tuning data. However, naive "act-as-a-user" prompting often yields verbose, unrealistic utterances, underscoring the need for principled evaluation of so-called user proxy agents. We present MIRRORBENCH, a reproducible, extensible benchmarking framework that evaluates user proxies solely on their ability to produce human-like user utterances across diverse conversational tasks, explicitly decoupled from downstream task success. MIRRORBENCH features a modular execution engine with typed interfaces, metadata-driven registries, multi-backend support, caching, and robust observability. The system supports pluggable user proxies, datasets, tasks, and metrics, enabling researchers to evaluate arbitrary simulators under a uniform, variance-aware harness. We include three lexical-diversity metrics (MATTR, YULE'S K, and HD-D) and three LLM-judge-based metrics (GTEval, Pairwise Indistinguishability, and Rubric-and-Reason). Across four open datasets, MIRRORBENCH yields variance-aware results and reveals systematic gaps between user proxies and real human users. The framework is open source and includes a simple command-line interface for running experiments, managing configurations and caching, and generating reports. The framework can be accessed at https://github.com/SAP/mirrorbench.

MirrorBench: Een Uitbreidbaar Framework voor de Evaluatie van User-Proxy Agents op Menselijkheid

MirrorBench: An Extensible Framework to Evaluate User-Proxy Agents for Human-Likeness

Samenvatting

Support