Automatización del Diseño de Evaluación Comparativa

Resumen

El rápido progreso y despliegue generalizado de los LLM y agentes potenciados por LLM ha superado nuestra capacidad para evaluarlos. Los puntos de referencia estáticos y elaborados manualmente son la herramienta principal para evaluar las capacidades de los modelos, pero estos se saturan rápidamente. Por el contrario, los puntos de referencia dinámicos evolucionan junto con los modelos que evalúan, pero son costosos de crear y actualizar continuamente. Para abordar estos desafíos, desarrollamos BeTaL (Benchmark Tuning with an LLM-in-the-loop), un marco que aprovecha los principios de diseño de entornos para automatizar el proceso de diseño de puntos de referencia dinámicos. BeTaL funciona parametrizando las decisiones de diseño clave en plantillas de referencia base y utiliza LLM para razonar a través del espacio de parámetros resultante para obtener propiedades objetivo (como dificultad y realismo) de manera rentable. Validamos este enfoque en su capacidad para crear puntos de referencia con niveles de dificultad deseados. Utilizando BeTaL, creamos dos nuevos puntos de referencia y extendemos un popular punto de referencia agéntico, tau-bench. Una evaluación exhaustiva de estas tres tareas y múltiples niveles de dificultad objetivo muestra que BeTaL produce puntos de referencia mucho más cercanos a la dificultad deseada, con desviaciones promedio que oscilan entre el 5.3% y el 13.2%, lo que representa una mejora de 2 a 4 veces sobre las líneas de base.

English

The rapid progress and widespread deployment of LLMs and LLM-powered agents has outpaced our ability to evaluate them. Hand-crafted, static benchmarks are the primary tool for assessing model capabilities, but these quickly become saturated. In contrast, dynamic benchmarks evolve alongside the models they evaluate, but are expensive to create and continuously update. To address these challenges, we develop BeTaL (Benchmark Tuning with an LLM-in-the-loop), a framework that leverages environment design principles to automate the process of dynamic benchmark design. BeTaL works by parameterizing key design choices in base benchmark templates and uses LLMs to reason through the resulting parameter space to obtain target properties (such as difficulty and realism) in a cost-efficient manner. We validate this approach on its ability to create benchmarks with desired difficulty levels. Using BeTaL, we create two new benchmarks and extend a popular agentic benchmark tau-bench. Extensive evaluation on these three tasks and multiple target difficulty levels shows that BeTaL produces benchmarks much closer to the desired difficulty, with average deviations ranging from 5.3% to 13.2% -- a 2-4x improvement over the baselines.

Automatización del Diseño de Evaluación Comparativa

Automating Benchmark Design

Resumen

Support