ChatPaper.aiChatPaper

벤치마크 설계 자동화

Automating Benchmark Design

October 28, 2025
저자: Amanda Dsouza, Harit Vishwakarma, Zhengyang Qi, Justin Bauer, Derek Pham, Thomas Walshe, Armin Parchami, Frederic Sala, Paroma Varma
cs.AI

초록

대규모 언어 모델(LLM)과 LLM 기반 에이전트의 급속한 발전과 광범위한 보급은 이들을 평가하는 우리의 능력을 앞지르고 있습니다. 모델 능력을 평가하는 주요 도구인 수작업으로 제작된 정적 벤치마크는 빠르게 포화 상태에 이릅니다. 이와 대조적으로, 동적 벤치마크는 평가 대상 모델과 함께 진화하지만 생성 및 지속적인 업데이트 비용이 많이 듭니다. 이러한 과제를 해결하기 위해 우리는 환경 설계 원칙을 활용하여 동적 벤치마크 설계 과정을 자동화하는 프레임워크인 BeTaL(Benchmark Tuning with an LLM-in-the-loop)을 개발했습니다. BeTaL은 기본 벤치마크 템플릿의 핵심 설계 선택 사항을 매개변수화하고, LLM을 사용하여 결과적인 매개변수 공간을 추론하여 비용 효율적인 방식으로 난이도와 현실성 같은 목표 속성을 달성하는 방식으로 작동합니다. 우리는 이 접근법이 원하는 난이도를 가진 벤치마크를 생성하는 능력을 통해 검증했습니다. BeTaL을 사용하여 우리는 두 가지 새로운 벤치마크를 생성하고 인기 있는 에이전트 벤치마크인 tau-bench를 확장했습니다. 이 세 가지 작업과 여러 목표 난이도에 대한 광범위한 평가 결과, BeTaL이 기준선 대비 2-4배 향상된 평균 편차 5.3%에서 13.2% 범위로 원하는 난이도에 훨씬 더 가까운 벤치마크를 생성하는 것으로 나타났습니다.
English
The rapid progress and widespread deployment of LLMs and LLM-powered agents has outpaced our ability to evaluate them. Hand-crafted, static benchmarks are the primary tool for assessing model capabilities, but these quickly become saturated. In contrast, dynamic benchmarks evolve alongside the models they evaluate, but are expensive to create and continuously update. To address these challenges, we develop BeTaL (Benchmark Tuning with an LLM-in-the-loop), a framework that leverages environment design principles to automate the process of dynamic benchmark design. BeTaL works by parameterizing key design choices in base benchmark templates and uses LLMs to reason through the resulting parameter space to obtain target properties (such as difficulty and realism) in a cost-efficient manner. We validate this approach on its ability to create benchmarks with desired difficulty levels. Using BeTaL, we create two new benchmarks and extend a popular agentic benchmark tau-bench. Extensive evaluation on these three tasks and multiple target difficulty levels shows that BeTaL produces benchmarks much closer to the desired difficulty, with average deviations ranging from 5.3% to 13.2% -- a 2-4x improvement over the baselines.
PDF151December 2, 2025