MirrorBench: Un Framework Estensibile per Valutare gli Agenti User-Proxy in Termini di Somiglianza Umana

Abstract

I modelli linguistici di grandi dimensioni (LLM) sono sempre più utilizzati come simulatori umani, sia per valutare sistemi conversazionali che per generare dati di fine-tuning. Tuttavia, prompt ingenui del tipo "agisci-come-un-utente" spesso producono espressioni verbose e irrealistiche, sottolineando la necessità di una valutazione rigorosa dei cosiddetti agenti proxy utente. Presentiamo MIRRORBENCH, un framework di benchmarking riproducibile ed estensibile che valuta i proxy utente esclusivamente sulla loro capacità di produrre espressioni utente simili a quelle umane in diverse attività conversazionali, esplicitamente disaccoppiata dal successo del task a valle. MIRRORBENCH include un motore di esecuzione modulare con interfacce tipate, registri guidati da metadati, supporto multi-backend, caching e robusta osservabilità. Il sistema supporta proxy utente, dataset, task e metriche pluggable, consentendo ai ricercatori di valutare simulatori arbitrari sotto un'infrastruttura uniforme e consapevole della varianza. Includiamo tre metriche di diversità lessicale (MATTR, K di YULE e HD-D) e tre metriche basate su giudici LLM (GTEval, Indistinguibilità a Coppie e Rubrica-e-Ragionamento). Su quattro dataset aperti, MIRRORBENCH fornisce risultati consapevoli della varianza e rivela lacune sistematiche tra i proxy utente e gli utenti umani reali. Il framework è open source e include una semplice interfaccia a riga di comando per eseguire esperimenti, gestire configurazioni e cache e generare report. Il framework è accessibile all'indirizzo https://github.com/SAP/mirrorbench.

English

Large language models (LLMs) are increasingly used as human simulators, both for evaluating conversational systems and for generating fine-tuning data. However, naive "act-as-a-user" prompting often yields verbose, unrealistic utterances, underscoring the need for principled evaluation of so-called user proxy agents. We present MIRRORBENCH, a reproducible, extensible benchmarking framework that evaluates user proxies solely on their ability to produce human-like user utterances across diverse conversational tasks, explicitly decoupled from downstream task success. MIRRORBENCH features a modular execution engine with typed interfaces, metadata-driven registries, multi-backend support, caching, and robust observability. The system supports pluggable user proxies, datasets, tasks, and metrics, enabling researchers to evaluate arbitrary simulators under a uniform, variance-aware harness. We include three lexical-diversity metrics (MATTR, YULE'S K, and HD-D) and three LLM-judge-based metrics (GTEval, Pairwise Indistinguishability, and Rubric-and-Reason). Across four open datasets, MIRRORBENCH yields variance-aware results and reveals systematic gaps between user proxies and real human users. The framework is open source and includes a simple command-line interface for running experiments, managing configurations and caching, and generating reports. The framework can be accessed at https://github.com/SAP/mirrorbench.

MirrorBench: Un Framework Estensibile per Valutare gli Agenti User-Proxy in Termini di Somiglianza Umana

MirrorBench: An Extensible Framework to Evaluate User-Proxy Agents for Human-Likeness

Abstract

Support