ChatPaper.aiChatPaper

MirrorBench: 인간과 유사성을 평가하기 위한 확장 가능한 사용자-프록시 에이전트 프레임워크

MirrorBench: An Extensible Framework to Evaluate User-Proxy Agents for Human-Likeness

January 13, 2026
저자: Ashutosh Hathidara, Julien Yu, Vaishali Senthil, Sebastian Schreiber, Anil Babu Ankisettipalli
cs.AI

초록

대규모 언어 모델(LLM)은 대화 시스템 평가와 미세 조정 데이터 생성 모두를 위해 인간 시뮬레이터로 점점 더 많이 활용되고 있습니다. 그러나 단순한 "사용자 역할 수행" 방식의 프롬프팅은 종종 장황하고 비현실적인 발화를 생성하며, 이는 소위 사용자 프록시 에이전트에 대한 체계적인 평가의 필요성을 강조합니다. 본 논문에서는 다양한 대화 작업에서 인간과 유사한 사용자 발화를 생성하는 능력만을 기준으로 사용자 프록시를 평가하는 재현 가능하고 확장성 있는 벤치마킹 프레임워크인 MIRRORBENCH를 소개합니다. 이는 하류 작업 성공 여부와 명시적으로 분리됩니다. MIRRORBENCH는 타입 인터페이스, 메타데이터 기반 레지스트리, 다중 백엔드 지원, 캐싱, 강력한 관찰 가능성을 갖춘 모듈식 실행 엔진을 특징으로 합니다. 본 시스템은 플러그인 방식의 사용자 프록시, 데이터셋, 작업, 메트릭을 지원하여 연구자들이 통일되고 분산 인식(variance-aware)된 환경 하에서 임의의 시뮬레이터를 평가할 수 있게 합니다. 여기에는 세 가지 어휘 다양성 메트릭(MATTR, YULE'S K, HD-D)과 세 가지 LLM-판단 기반 메트릭(GTEval, Pairwise Indistinguishability, Rubric-and-Reason)이 포함됩니다. 4개의 공개 데이터셋을 대상으로 한 실험에서 MIRRORBENCH는 분산을 고려한 결과를 제공하며 사용자 프록시와 실제 인간 사용자 간의 체계적인 격차를 보여줍니다. 본 프레임워크는 오픈 소스이며, 실험 실행, 구성 관리 및 캐싱, 보고서 생성을 위한 간단한 명령줄 인터페이스를 포함합니다. 해당 프레임워크는 https://github.com/SAP/mirrorbench 에서 접근할 수 있습니다.
English
Large language models (LLMs) are increasingly used as human simulators, both for evaluating conversational systems and for generating fine-tuning data. However, naive "act-as-a-user" prompting often yields verbose, unrealistic utterances, underscoring the need for principled evaluation of so-called user proxy agents. We present MIRRORBENCH, a reproducible, extensible benchmarking framework that evaluates user proxies solely on their ability to produce human-like user utterances across diverse conversational tasks, explicitly decoupled from downstream task success. MIRRORBENCH features a modular execution engine with typed interfaces, metadata-driven registries, multi-backend support, caching, and robust observability. The system supports pluggable user proxies, datasets, tasks, and metrics, enabling researchers to evaluate arbitrary simulators under a uniform, variance-aware harness. We include three lexical-diversity metrics (MATTR, YULE'S K, and HD-D) and three LLM-judge-based metrics (GTEval, Pairwise Indistinguishability, and Rubric-and-Reason). Across four open datasets, MIRRORBENCH yields variance-aware results and reveals systematic gaps between user proxies and real human users. The framework is open source and includes a simple command-line interface for running experiments, managing configurations and caching, and generating reports. The framework can be accessed at https://github.com/SAP/mirrorbench.
PDF12January 24, 2026