Автоматизация проектирования тестовых наборов

Аннотация

Быстрый прогресс и широкое внедрение больших языковых моделей (LLM) и агентов на их основе опережают наши возможности по их оценке. Основным инструментом оценки возможностей моделей являются статические бенчмарки, созданные вручную, но они быстро насыщаются. В отличие от них, динамические бенчмарки эволюционируют вместе с оцениваемыми моделями, но их создание и постоянное обновление требуют больших затрат. Для решения этих проблем мы разрабатываем BeTaL (Benchmark Tuning with an LLM-in-the-loop) — фреймворк, который использует принципы проектирования сред для автоматизации процесса создания динамических бенчмарков. BeTaL работает путем параметризации ключевых проектных решений в базовых шаблонах бенчмарков и использует LLM для анализа результирующего пространства параметров с целью эффективного достижения целевых свойств (таких как сложность и реалистичность). Мы проверяем этот подход на способности создавать бенчмарки с желаемыми уровнями сложности. С помощью BeTaL мы создаем два новых бенчмарка и расширяем популярный агентский бенчмарк tau-bench. Обширная оценка на этих трех задачах и нескольких целевых уровнях сложности показывает, что BeTaL создает бенчмарки, значительно ближе соответствующие желаемой сложности, со средними отклонениями от 5,3% до 13,2% — что в 2–4 раза лучше, чем у базовых методов.

English

The rapid progress and widespread deployment of LLMs and LLM-powered agents has outpaced our ability to evaluate them. Hand-crafted, static benchmarks are the primary tool for assessing model capabilities, but these quickly become saturated. In contrast, dynamic benchmarks evolve alongside the models they evaluate, but are expensive to create and continuously update. To address these challenges, we develop BeTaL (Benchmark Tuning with an LLM-in-the-loop), a framework that leverages environment design principles to automate the process of dynamic benchmark design. BeTaL works by parameterizing key design choices in base benchmark templates and uses LLMs to reason through the resulting parameter space to obtain target properties (such as difficulty and realism) in a cost-efficient manner. We validate this approach on its ability to create benchmarks with desired difficulty levels. Using BeTaL, we create two new benchmarks and extend a popular agentic benchmark tau-bench. Extensive evaluation on these three tasks and multiple target difficulty levels shows that BeTaL produces benchmarks much closer to the desired difficulty, with average deviations ranging from 5.3% to 13.2% -- a 2-4x improvement over the baselines.

Автоматизация проектирования тестовых наборов

Automating Benchmark Design

Аннотация

Support