ChatPaper.aiChatPaper

MirrorBench: Uma Estrutura Extensível para Avaliar Agentes de Proxy do Usuário quanto à Semelhança Humana

MirrorBench: An Extensible Framework to Evaluate User-Proxy Agents for Human-Likeness

January 13, 2026
Autores: Ashutosh Hathidara, Julien Yu, Vaishali Senthil, Sebastian Schreiber, Anil Babu Ankisettipalli
cs.AI

Resumo

Os grandes modelos de linguagem (LLMs) são cada vez mais utilizados como simuladores humanos, tanto para avaliar sistemas conversacionais quanto para gerar dados de fine-tuning. No entanto, a abordagem ingênua de instrução "aja-como-um-utilizador" frequentemente produz enunciados verbosos e irreais, salientando a necessidade de uma avaliação fundamentada dos chamados agentes proxy de utilizador. Apresentamos o MIRRORBENCH, uma estrutura de benchmarking reproduzível e extensível que avalia os proxies de utilizador unicamente pela sua capacidade de produzir enunciados de utilizador semelhantes aos humanos em diversas tarefas conversacionais, explicitamente dissociada do sucesso da tarefa subsequente. O MIRRORBENCH possui um motor de execução modular com interfaces tipadas, registos orientados por metadados, suporte multi-backend, cache e observabilidade robusta. O sistema suporta proxies de utilizador plugáveis, conjuntos de dados, tarefas e métricas, permitindo que os investigadores avaliem simuladores arbitrários sob uma estrutura uniforme e consciente da variância. Incluímos três métricas de diversidade lexical (MATTR, K de YULE e HD-D) e três métricas baseadas em juízos de LLM (GTEval, Indistinguibilidade Par a Par e Rubrica e Raciocínio). Em quatro conjuntos de dados abertos, o MIRRORBENCH produz resultados conscientes da variância e revela lacunas sistemáticas entre os proxies de utilizador e os utilizadores humanos reais. A estrutura é de código aberto e inclui uma interface simples de linha de comando para executar experiências, gerir configurações e cache, e gerar relatórios. A estrutura pode ser acedida em https://github.com/SAP/mirrorbench.
English
Large language models (LLMs) are increasingly used as human simulators, both for evaluating conversational systems and for generating fine-tuning data. However, naive "act-as-a-user" prompting often yields verbose, unrealistic utterances, underscoring the need for principled evaluation of so-called user proxy agents. We present MIRRORBENCH, a reproducible, extensible benchmarking framework that evaluates user proxies solely on their ability to produce human-like user utterances across diverse conversational tasks, explicitly decoupled from downstream task success. MIRRORBENCH features a modular execution engine with typed interfaces, metadata-driven registries, multi-backend support, caching, and robust observability. The system supports pluggable user proxies, datasets, tasks, and metrics, enabling researchers to evaluate arbitrary simulators under a uniform, variance-aware harness. We include three lexical-diversity metrics (MATTR, YULE'S K, and HD-D) and three LLM-judge-based metrics (GTEval, Pairwise Indistinguishability, and Rubric-and-Reason). Across four open datasets, MIRRORBENCH yields variance-aware results and reveals systematic gaps between user proxies and real human users. The framework is open source and includes a simple command-line interface for running experiments, managing configurations and caching, and generating reports. The framework can be accessed at https://github.com/SAP/mirrorbench.
PDF23February 8, 2026