MirrorBench: Uma Estrutura Extensível para Avaliar Agentes de Proxy do Usuário quanto à Semelhança Humana

Resumo

Os grandes modelos de linguagem (LLMs) são cada vez mais utilizados como simuladores humanos, tanto para avaliar sistemas conversacionais quanto para gerar dados de fine-tuning. No entanto, a abordagem ingênua de instrução "aja-como-um-utilizador" frequentemente produz enunciados verbosos e irreais, salientando a necessidade de uma avaliação fundamentada dos chamados agentes proxy de utilizador. Apresentamos o MIRRORBENCH, uma estrutura de benchmarking reproduzível e extensível que avalia os proxies de utilizador unicamente pela sua capacidade de produzir enunciados de utilizador semelhantes aos humanos em diversas tarefas conversacionais, explicitamente dissociada do sucesso da tarefa subsequente. O MIRRORBENCH possui um motor de execução modular com interfaces tipadas, registos orientados por metadados, suporte multi-backend, cache e observabilidade robusta. O sistema suporta proxies de utilizador plugáveis, conjuntos de dados, tarefas e métricas, permitindo que os investigadores avaliem simuladores arbitrários sob uma estrutura uniforme e consciente da variância. Incluímos três métricas de diversidade lexical (MATTR, K de YULE e HD-D) e três métricas baseadas em juízos de LLM (GTEval, Indistinguibilidade Par a Par e Rubrica e Raciocínio). Em quatro conjuntos de dados abertos, o MIRRORBENCH produz resultados conscientes da variância e revela lacunas sistemáticas entre os proxies de utilizador e os utilizadores humanos reais. A estrutura é de código aberto e inclui uma interface simples de linha de comando para executar experiências, gerir configurações e cache, e gerar relatórios. A estrutura pode ser acedida em https://github.com/SAP/mirrorbench.

English

Large language models (LLMs) are increasingly used as human simulators, both for evaluating conversational systems and for generating fine-tuning data. However, naive "act-as-a-user" prompting often yields verbose, unrealistic utterances, underscoring the need for principled evaluation of so-called user proxy agents. We present MIRRORBENCH, a reproducible, extensible benchmarking framework that evaluates user proxies solely on their ability to produce human-like user utterances across diverse conversational tasks, explicitly decoupled from downstream task success. MIRRORBENCH features a modular execution engine with typed interfaces, metadata-driven registries, multi-backend support, caching, and robust observability. The system supports pluggable user proxies, datasets, tasks, and metrics, enabling researchers to evaluate arbitrary simulators under a uniform, variance-aware harness. We include three lexical-diversity metrics (MATTR, YULE'S K, and HD-D) and three LLM-judge-based metrics (GTEval, Pairwise Indistinguishability, and Rubric-and-Reason). Across four open datasets, MIRRORBENCH yields variance-aware results and reveals systematic gaps between user proxies and real human users. The framework is open source and includes a simple command-line interface for running experiments, managing configurations and caching, and generating reports. The framework can be accessed at https://github.com/SAP/mirrorbench.

MirrorBench: Uma Estrutura Extensível para Avaliar Agentes de Proxy do Usuário quanto à Semelhança Humana

MirrorBench: An Extensible Framework to Evaluate User-Proxy Agents for Human-Likeness

Resumo

Support