ChatPaper.aiChatPaper

MirrorBench: Расширяемая платформа для оценки пользовательских прокси-агентов на соответствие человеческому поведению

MirrorBench: An Extensible Framework to Evaluate User-Proxy Agents for Human-Likeness

January 13, 2026
Авторы: Ashutosh Hathidara, Julien Yu, Vaishali Senthil, Sebastian Schreiber, Anil Babu Ankisettipalli
cs.AI

Аннотация

Крупные языковые модели (LLMs) все чаще используются в качестве симуляторов человека как для оценки диалоговых систем, так и для генерации данных для дообучения. Однако наивные промпты в стиле «действуй как пользователь» часто приводят к многословным и неестественным высказываниям, что подчеркивает необходимость принципиальной оценки так называемых прокси-агентов пользователя. Мы представляем MIRRORBENCH — воспроизводимый и расширяемый фреймворк для бенчмаркинга, который оценивает прокси-агенты исключительно по их способности генерировать правдоподобные пользовательские высказывания в различных диалоговых задачах, явно отделяя эту способность от успешности решения последующих задач. MIRRORBENCH включает модульный механизм выполнения с типизированными интерфейсами, регистры на основе метаданных, поддержку нескольких бэкендов, кэширование и надежную наблюдаемость. Система поддерживает подключаемые прокси-агенты, наборы данных, задачи и метрики, позволяя исследователям оценивать произвольные симуляторы в единой, учитывающей дисперсию среде. Мы включили три метрики лексического разнообразия (MATTR, K Юла и HD-D) и три метрики на основе LLM-оценки (GTEval, попарная неразличимость и оценка по рубрикам с обоснованием). На четырех открытых наборах данных MIRRORBENCH демонстрирует результаты с учетом дисперсии и выявляет систематические различия между прокси-агентами и реальными пользователями. Фреймворк имеет открытый исходный код и включает простой интерфейс командной строки для проведения экспериментов, управления конфигурациями и кэширования, а также генерации отчетов. Фреймворк доступен по адресу https://github.com/SAP/mirrorbench.
English
Large language models (LLMs) are increasingly used as human simulators, both for evaluating conversational systems and for generating fine-tuning data. However, naive "act-as-a-user" prompting often yields verbose, unrealistic utterances, underscoring the need for principled evaluation of so-called user proxy agents. We present MIRRORBENCH, a reproducible, extensible benchmarking framework that evaluates user proxies solely on their ability to produce human-like user utterances across diverse conversational tasks, explicitly decoupled from downstream task success. MIRRORBENCH features a modular execution engine with typed interfaces, metadata-driven registries, multi-backend support, caching, and robust observability. The system supports pluggable user proxies, datasets, tasks, and metrics, enabling researchers to evaluate arbitrary simulators under a uniform, variance-aware harness. We include three lexical-diversity metrics (MATTR, YULE'S K, and HD-D) and three LLM-judge-based metrics (GTEval, Pairwise Indistinguishability, and Rubric-and-Reason). Across four open datasets, MIRRORBENCH yields variance-aware results and reveals systematic gaps between user proxies and real human users. The framework is open source and includes a simple command-line interface for running experiments, managing configurations and caching, and generating reports. The framework can be accessed at https://github.com/SAP/mirrorbench.
PDF12January 24, 2026