MirrorBench: Un Marco Extensible para Evaluar Agentes Usuario-Proxy en Cuanto a su Similitud Humana

Resumen

Los modelos de lenguaje de gran tamaño (LLM) se utilizan cada vez más como simuladores humanos, tanto para evaluar sistemas conversacionales como para generar datos de ajuste fino. Sin embargo, la instrucción ingenua de "actuar como un usuario" a menudo produce enunciados verbosos y poco realistas, lo que subraya la necesidad de una evaluación rigurosa de los llamados agentes proxy de usuario. Presentamos MIRRORBENCH, un marco de evaluación reproducible y extensible que evalúa a los proxies de usuario únicamente en función de su capacidad para producir enunciados de usuario similares a los humanos en diversas tareas conversacionales, explícitamente desacoplados del éxito de la tarea posterior. MIRRORBENCH cuenta con un motor de ejecución modular con interfaces tipadas, registros basados en metadatos, soporte multiplataforma, almacenamiento en caché y una sólida capacidad de observación. El sistema admite proxies de usuario, conjuntos de datos, tareas y métricas intercambiables, lo que permite a los investigadores evaluar simuladores arbitrarios bajo un marco uniforme y consciente de la varianza. Incluimos tres métricas de diversidad léxica (MATTR, K de YULE y HD-D) y tres métricas basadas en evaluación por LLM (GTEval, Indistinguibilidad por Pares, y Rúbrica y Razonamiento). En cuatro conjuntos de datos abiertos, MIRRORBENCH produce resultados conscientes de la varianza y revela brechas sistemáticas entre los proxies de usuario y los usuarios humanos reales. El marco es de código abierto e incluye una interfaz de línea de comandos simple para ejecutar experimentos, gestionar configuraciones y caché, y generar informes. El marco se puede acceder en https://github.com/SAP/mirrorbench.

English

Large language models (LLMs) are increasingly used as human simulators, both for evaluating conversational systems and for generating fine-tuning data. However, naive "act-as-a-user" prompting often yields verbose, unrealistic utterances, underscoring the need for principled evaluation of so-called user proxy agents. We present MIRRORBENCH, a reproducible, extensible benchmarking framework that evaluates user proxies solely on their ability to produce human-like user utterances across diverse conversational tasks, explicitly decoupled from downstream task success. MIRRORBENCH features a modular execution engine with typed interfaces, metadata-driven registries, multi-backend support, caching, and robust observability. The system supports pluggable user proxies, datasets, tasks, and metrics, enabling researchers to evaluate arbitrary simulators under a uniform, variance-aware harness. We include three lexical-diversity metrics (MATTR, YULE'S K, and HD-D) and three LLM-judge-based metrics (GTEval, Pairwise Indistinguishability, and Rubric-and-Reason). Across four open datasets, MIRRORBENCH yields variance-aware results and reveals systematic gaps between user proxies and real human users. The framework is open source and includes a simple command-line interface for running experiments, managing configurations and caching, and generating reports. The framework can be accessed at https://github.com/SAP/mirrorbench.