Automatisation de la conception de benchmarks

papers.abstract

La progression rapide et le déploiement généralisé des LLM et des agents pilotés par des LLM ont dépassé notre capacité à les évaluer. Les benchmarks statiques conçus manuellement constituent l'outil principal pour évaluer les capacités des modèles, mais ceux-ci deviennent rapidement saturés. En revanche, les benchmarks dynamiques évoluent parallèlement aux modèles qu'ils évaluent, mais sont coûteux à créer et à mettre à jour continuellement. Pour relever ces défis, nous développons BeTaL (Benchmark Tuning with an LLM-in-the-loop), un cadre qui exploite les principes de conception d'environnements pour automatiser le processus de conception de benchmarks dynamiques. BeTaL fonctionne en paramétrant les choix de conception clés dans des modèles de base de benchmarks et utilise des LLM pour raisonner sur l'espace paramétrique résultant afin d'obtenir des propriétés cibles (telles que la difficulté et le réalisme) de manière économique. Nous validons cette approche sur sa capacité à créer des benchmarks avec des niveaux de difficulté souhaités. En utilisant BeTaL, nous créons deux nouveaux benchmarks et étendons un benchmark agentiel populaire, tau-bench. Une évaluation approfondie sur ces trois tâches et plusieurs niveaux de difficulté cibles montre que BeTaL produit des benchmarks bien plus proches de la difficulté souhaitée, avec des écarts moyens allant de 5,3 % à 13,2 % – une amélioration de 2 à 4 fois par rapport aux lignes de base.

English

The rapid progress and widespread deployment of LLMs and LLM-powered agents has outpaced our ability to evaluate them. Hand-crafted, static benchmarks are the primary tool for assessing model capabilities, but these quickly become saturated. In contrast, dynamic benchmarks evolve alongside the models they evaluate, but are expensive to create and continuously update. To address these challenges, we develop BeTaL (Benchmark Tuning with an LLM-in-the-loop), a framework that leverages environment design principles to automate the process of dynamic benchmark design. BeTaL works by parameterizing key design choices in base benchmark templates and uses LLMs to reason through the resulting parameter space to obtain target properties (such as difficulty and realism) in a cost-efficient manner. We validate this approach on its ability to create benchmarks with desired difficulty levels. Using BeTaL, we create two new benchmarks and extend a popular agentic benchmark tau-bench. Extensive evaluation on these three tasks and multiple target difficulty levels shows that BeTaL produces benchmarks much closer to the desired difficulty, with average deviations ranging from 5.3% to 13.2% -- a 2-4x improvement over the baselines.

Automatisation de la conception de benchmarks

Automating Benchmark Design

papers.abstract

Support