Automatisering van Benchmarkontwerp
Automating Benchmark Design
October 28, 2025
Auteurs: Amanda Dsouza, Harit Vishwakarma, Zhengyang Qi, Justin Bauer, Derek Pham, Thomas Walshe, Armin Parchami, Frederic Sala, Paroma Varma
cs.AI
Samenvatting
De snelle vooruitgang en wijdverspreide inzet van LLM's en door LLM's aangedreven agents heeft ons vermogen om ze te evalueren overtroffen. Handmatig gemaakte, statische benchmarks zijn het belangrijkste instrument voor het beoordelen van modelcapaciteiten, maar deze raken snel verzadigd. Dynamische benchmarks daarentegen evolueren mee met de modellen die ze evalueren, maar zijn duur om te creëren en continu bij te werken. Om deze uitdagingen aan te pakken, ontwikkelen we BeTaL (Benchmark Tuning with an LLM-in-the-loop), een raamwerk dat ontwerpprincipes voor omgevingen benut om het proces van dynamisch benchmarkontwerp te automatiseren. BeTaL werkt door belangrijke ontwerpkeuzes in basisbenchmark-sjablonen te parametriseren en gebruikt LLM's om door de resulterende parameterruimte te redeneren om op een kostenefficiënte manier gewenste eigenschappen (zoals moeilijkheidsgraad en realisme) te verkrijgen. We valideren deze aanpak aan de hand van het vermogen om benchmarks met gewenste moeilijkheidsniveaus te creëren. Met BeTaL creëren we twee nieuwe benchmarks en breiden we een populaire agent-gebaseerde benchmark, tau-bench, uit. Uitgebreide evaluatie van deze drie taken op meerdere doel-moeilijkheidsniveaus toont aan dat BeTaL benchmarks produceert die veel dichter bij de gewenste moeilijkheidsgraad liggen, met gemiddelde afwijkingen variërend van 5,3% tot 13,2% – een 2 tot 4 keer verbetering ten opzichte van de basislijnen.
English
The rapid progress and widespread deployment of LLMs and LLM-powered agents
has outpaced our ability to evaluate them. Hand-crafted, static benchmarks are
the primary tool for assessing model capabilities, but these quickly become
saturated. In contrast, dynamic benchmarks evolve alongside the models they
evaluate, but are expensive to create and continuously update. To address these
challenges, we develop BeTaL (Benchmark Tuning with an LLM-in-the-loop), a
framework that leverages environment design principles to automate the process
of dynamic benchmark design. BeTaL works by parameterizing key design choices
in base benchmark templates and uses LLMs to reason through the resulting
parameter space to obtain target properties (such as difficulty and realism) in
a cost-efficient manner. We validate this approach on its ability to create
benchmarks with desired difficulty levels. Using BeTaL, we create two new
benchmarks and extend a popular agentic benchmark tau-bench. Extensive
evaluation on these three tasks and multiple target difficulty levels shows
that BeTaL produces benchmarks much closer to the desired difficulty, with
average deviations ranging from 5.3% to 13.2% -- a 2-4x improvement over the
baselines.