MirrorBench: Ein erweiterbares Framework zur Bewertung der Menschähnlichkeit von User-Proxy-Agenten
MirrorBench: An Extensible Framework to Evaluate User-Proxy Agents for Human-Likeness
January 13, 2026
papers.authors: Ashutosh Hathidara, Julien Yu, Vaishali Senthil, Sebastian Schreiber, Anil Babu Ankisettipalli
cs.AI
papers.abstract
Große Sprachmodelle (LLMs) werden zunehmend als menschliche Simulatoren eingesetzt, sowohl zur Bewertung konversationeller Systeme als auch zur Erzeugung von Feinjustierungsdaten. Naives "Verhalte-dich-wie-ein-Nutzer"-Prompting führt jedoch oft zu wortreichen, unrealistischen Äußerungen, was den Bedarf an einer prinzipienbasierten Evaluation sogenannter User-Proxy-Agenten unterstreicht. Wir stellen MIRRORBENCH vor, ein reproduzierbares, erweiterbares Benchmarking-Framework, das User-Proxies ausschließlich anhand ihrer Fähigkeit bewertet, menschenähnliche Nutzeräußerungen über verschiedene Konversationsaufgaben hinweg zu erzeugen – explizit entkoppelt vom Erfolg bei der nachgelagerten Aufgabe. MIRRORBENCH verfügt über eine modulare Ausführungsengine mit typisierten Schnittstellen, metadatengesteuerten Registries, Multi-Backend-Unterstützung, Caching und robuster Beobachtbarkeit. Das System unterstützt steckbare User-Proxies, Datensätze, Aufgaben und Metriken, sodass Forscher beliebige Simulatoren unter einer einheitlichen, varianzbewussten Rahmenbedingung evaluieren können. Wir integrieren drei lexikalische Diversitätsmetriken (MATTR, YULES K und HD-D) und drei auf LLM-Judges basierende Metriken (GTEval, paarweise Ununterscheidbarkeit und Rubrik-mit-Begründung). Über vier offene Datensätze hinweg liefert MIRRORBENCH varianzbewusste Ergebnisse und deckt systematische Lücken zwischen User-Proxies und echten menschlichen Nutzern auf. Das Framework ist Open-Source und beinhaltet eine einfache Kommandozeilenschnittstelle zum Ausführen von Experimenten, Verwalten von Konfigurationen und Caches sowie Erstellen von Berichten. Das Framework ist unter https://github.com/SAP/mirrorbench zugänglich.
English
Large language models (LLMs) are increasingly used as human simulators, both for evaluating conversational systems and for generating fine-tuning data. However, naive "act-as-a-user" prompting often yields verbose, unrealistic utterances, underscoring the need for principled evaluation of so-called user proxy agents. We present MIRRORBENCH, a reproducible, extensible benchmarking framework that evaluates user proxies solely on their ability to produce human-like user utterances across diverse conversational tasks, explicitly decoupled from downstream task success. MIRRORBENCH features a modular execution engine with typed interfaces, metadata-driven registries, multi-backend support, caching, and robust observability. The system supports pluggable user proxies, datasets, tasks, and metrics, enabling researchers to evaluate arbitrary simulators under a uniform, variance-aware harness. We include three lexical-diversity metrics (MATTR, YULE'S K, and HD-D) and three LLM-judge-based metrics (GTEval, Pairwise Indistinguishability, and Rubric-and-Reason). Across four open datasets, MIRRORBENCH yields variance-aware results and reveals systematic gaps between user proxies and real human users. The framework is open source and includes a simple command-line interface for running experiments, managing configurations and caching, and generating reports. The framework can be accessed at https://github.com/SAP/mirrorbench.