Automatisering van Benchmarkontwerp

Samenvatting

De snelle vooruitgang en wijdverspreide inzet van LLM's en door LLM's aangedreven agents heeft ons vermogen om ze te evalueren overtroffen. Handmatig gemaakte, statische benchmarks zijn het belangrijkste instrument voor het beoordelen van modelcapaciteiten, maar deze raken snel verzadigd. Dynamische benchmarks daarentegen evolueren mee met de modellen die ze evalueren, maar zijn duur om te creëren en continu bij te werken. Om deze uitdagingen aan te pakken, ontwikkelen we BeTaL (Benchmark Tuning with an LLM-in-the-loop), een raamwerk dat ontwerpprincipes voor omgevingen benut om het proces van dynamisch benchmarkontwerp te automatiseren. BeTaL werkt door belangrijke ontwerpkeuzes in basisbenchmark-sjablonen te parametriseren en gebruikt LLM's om door de resulterende parameterruimte te redeneren om op een kostenefficiënte manier gewenste eigenschappen (zoals moeilijkheidsgraad en realisme) te verkrijgen. We valideren deze aanpak aan de hand van het vermogen om benchmarks met gewenste moeilijkheidsniveaus te creëren. Met BeTaL creëren we twee nieuwe benchmarks en breiden we een populaire agent-gebaseerde benchmark, tau-bench, uit. Uitgebreide evaluatie van deze drie taken op meerdere doel-moeilijkheidsniveaus toont aan dat BeTaL benchmarks produceert die veel dichter bij de gewenste moeilijkheidsgraad liggen, met gemiddelde afwijkingen variërend van 5,3% tot 13,2% – een 2 tot 4 keer verbetering ten opzichte van de basislijnen.

English

The rapid progress and widespread deployment of LLMs and LLM-powered agents has outpaced our ability to evaluate them. Hand-crafted, static benchmarks are the primary tool for assessing model capabilities, but these quickly become saturated. In contrast, dynamic benchmarks evolve alongside the models they evaluate, but are expensive to create and continuously update. To address these challenges, we develop BeTaL (Benchmark Tuning with an LLM-in-the-loop), a framework that leverages environment design principles to automate the process of dynamic benchmark design. BeTaL works by parameterizing key design choices in base benchmark templates and uses LLMs to reason through the resulting parameter space to obtain target properties (such as difficulty and realism) in a cost-efficient manner. We validate this approach on its ability to create benchmarks with desired difficulty levels. Using BeTaL, we create two new benchmarks and extend a popular agentic benchmark tau-bench. Extensive evaluation on these three tasks and multiple target difficulty levels shows that BeTaL produces benchmarks much closer to the desired difficulty, with average deviations ranging from 5.3% to 13.2% -- a 2-4x improvement over the baselines.

Automatisering van Benchmarkontwerp

Automating Benchmark Design

Samenvatting

Support