ChatPaper.aiChatPaper

MirrorBench:人間らしさを評価するためのユーザープロキシエージェント向け拡張可能フレームワーク

MirrorBench: An Extensible Framework to Evaluate User-Proxy Agents for Human-Likeness

January 13, 2026
著者: Ashutosh Hathidara, Julien Yu, Vaishali Senthil, Sebastian Schreiber, Anil Babu Ankisettipalli
cs.AI

要旨

大規模言語モデル(LLM)は、対話システムの評価やファインチューニングデータの生成において、人間シミュレータとしてますます利用されるようになっている。しかし、単純な「ユーザー役を演じる」プロンプトでは、冗長で非現実的な発話が生成されることが多く、いわゆるユーザープロキシエージェントの原理に基づいた評価の必要性が浮き彫りになっている。本論文では、MIRRORBENCHを提案する。これは再現性と拡張性を備えたベンチマークフレームワークであり、ユーザープロキシを、下流タスクの成功から明示的に切り離された多様な対話タスクにおいて、人間らしいユーザー発話を生成する能力のみに焦点を当てて評価する。MIRRORBENCHは、型付きインターフェース、メタデータ駆動のレジストリ、マルチバックエンドサポート、キャッシング、堅牢な可観測性を備えたモジュラー式実行エンジンを特徴とする。本システムは、プラグイン可能なユーザープロキシ、データセット、タスク、評価指標をサポートし、研究者が任意のシミュレータを、分散を考慮した統一的な環境下で評価することを可能にする。評価指標としては、3つの語彙多様性指標(MATTR、YULE'S K、HD-D)と、3つのLLM審査員ベースの指標(GTEval、ペアワイズ不可識別性、ルーブリック・アンド・リーズニング)を含む。4つの公開データセットを用いた実験において、MIRRORBENCHは分散を考慮した結果を提供し、ユーザープロキシと実在の人間ユーザーとの間に系統的な隔たりがあることを明らかにした。本フレームワークはオープンソースであり、実験の実行、設定とキャッシュの管理、レポート生成のためのシンプルなコマンドラインインターフェースを備える。フレームワークはhttps://github.com/SAP/mirrorbench からアクセス可能である。
English
Large language models (LLMs) are increasingly used as human simulators, both for evaluating conversational systems and for generating fine-tuning data. However, naive "act-as-a-user" prompting often yields verbose, unrealistic utterances, underscoring the need for principled evaluation of so-called user proxy agents. We present MIRRORBENCH, a reproducible, extensible benchmarking framework that evaluates user proxies solely on their ability to produce human-like user utterances across diverse conversational tasks, explicitly decoupled from downstream task success. MIRRORBENCH features a modular execution engine with typed interfaces, metadata-driven registries, multi-backend support, caching, and robust observability. The system supports pluggable user proxies, datasets, tasks, and metrics, enabling researchers to evaluate arbitrary simulators under a uniform, variance-aware harness. We include three lexical-diversity metrics (MATTR, YULE'S K, and HD-D) and three LLM-judge-based metrics (GTEval, Pairwise Indistinguishability, and Rubric-and-Reason). Across four open datasets, MIRRORBENCH yields variance-aware results and reveals systematic gaps between user proxies and real human users. The framework is open source and includes a simple command-line interface for running experiments, managing configurations and caching, and generating reports. The framework can be accessed at https://github.com/SAP/mirrorbench.
PDF12January 24, 2026