Automatisierung des Benchmark-Designs

papers.abstract

Der rasche Fortschritt und die weite Verbreitung von LLMs und LLM-gesteuerten Agenten haben unsere Fähigkeit zu ihrer Bewertung überholt. Manuell erstellte, statische Benchmarks sind das primäre Werkzeug zur Beurteilung von Modellfähigkeiten, werden jedoch schnell gesättigt. Im Gegensatz dazu entwickeln sich dynamische Benchmarks parallel zu den Modellen, die sie bewerten, sind jedoch teuer in der Erstellung und kontinuierlichen Aktualisierung. Um diese Herausforderungen zu bewältigen, entwickeln wir BeTaL (Benchmark Tuning with an LLM-in-the-loop), ein Framework, das Prinzipien des Umgebungsdesigns nutzt, um den Prozess des dynamischen Benchmark-Designs zu automatisieren. BeTaL funktioniert, indem es zentrale Designentscheidungen in Basis-Benchmark-Vorlagen parametrisiert und LLMs einsetzt, um den resultierenden Parameterraum zu durchdenken und Ziel eigenschaften (wie Schwierigkeitsgrad und Realismus) auf kosteneffiziente Weise zu erreichen. Wir validieren diesen Ansatz anhand seiner Fähigkeit, Benchmarks mit gewünschten Schwierigkeitsgraden zu erstellen. Mit BeTaL erstellen wir zwei neue Benchmarks und erweitern einen beliebten agentenbasierten Benchmark, tau-bench. Eine umfassende Auswertung dieser drei Aufgaben und mehrerer Zielschwierigkeitsgrade zeigt, dass BeTaL Benchmarks erzeugt, die deutlich näher an der gewünschten Schwierigkeit liegen, mit durchschnittlichen Abweichungen von 5,3 % bis 13,2 % – eine 2- bis 4-fache Verbesserung gegenüber den Baseline-Verfahren.

English

The rapid progress and widespread deployment of LLMs and LLM-powered agents has outpaced our ability to evaluate them. Hand-crafted, static benchmarks are the primary tool for assessing model capabilities, but these quickly become saturated. In contrast, dynamic benchmarks evolve alongside the models they evaluate, but are expensive to create and continuously update. To address these challenges, we develop BeTaL (Benchmark Tuning with an LLM-in-the-loop), a framework that leverages environment design principles to automate the process of dynamic benchmark design. BeTaL works by parameterizing key design choices in base benchmark templates and uses LLMs to reason through the resulting parameter space to obtain target properties (such as difficulty and realism) in a cost-efficient manner. We validate this approach on its ability to create benchmarks with desired difficulty levels. Using BeTaL, we create two new benchmarks and extend a popular agentic benchmark tau-bench. Extensive evaluation on these three tasks and multiple target difficulty levels shows that BeTaL produces benchmarks much closer to the desired difficulty, with average deviations ranging from 5.3% to 13.2% -- a 2-4x improvement over the baselines.

Automatisierung des Benchmark-Designs

Automating Benchmark Design

papers.abstract

Support