NetPress: Динамически генерируемые тесты для языковых моделей в сетевых приложениях

Аннотация

Несмотря на растущий интерес к предметно-ориентированному тестированию больших языковых моделей (LLM) и агентов, текущие оценки ограничиваются статичными, небольшими наборами данных, особенно в критически важных задачах, таких как сетевая эксплуатация, где требуется высокая надежность для развертывания. Мы представляем NetPress — автоматизированную платформу для генерации тестовых наборов, предназначенную для оценки LLM-агентов в сетевых приложениях. NetPress вводит унифицированную абстракцию с состоянием и действием, что позволяет динамически генерировать разнообразные наборы запросов вместе с соответствующими эталонными ответами. В процессе работы пользователи могут задавать конфигурации тестов для генерации миллионов запросов на лету. Помимо динамического создания тестов, NetPress интегрируется с сетевыми эмуляторами, предоставляя реалистичную обратную связь от среды, что поддерживает всестороннюю оценку по критериям корректности, безопасности и задержек. Мы применяем NetPress в трех типичных приложениях, выявляя интересные тонкие различия в поведении агентов, которые часто упускаются статичными тестами, ориентированными только на корректность. NetPress продвигает оценку LLM в сторону реалистичного, масштабируемого тестирования в инфраструктурно-ориентированных областях, помогая сократить разрыв между производительностью на тестах и готовностью к реальному развертыванию. Код доступен по адресу: https://github.com/Froot-NetSys/NetPress.

English

Despite growing interest in domain-specific benchmarking of large language models (LLMs) and agents, current evaluations remain limited to static, small-scale datasets, especially in high-stakes tasks like network operations that demand reliability for deployments. We present NetPress, an automated benchmark generation framework for evaluating LLM agents in network applications. NetPress introduces a unified abstraction with state and action, enabling dynamic generation of diverse query sets along with corresponding ground truths. At runtime, users can specify benchmark configurations to generate millions of queries on the fly. In addition to dynamic benchmark construction, NetPress integrates with network emulators to provide realistic environment feedback, supporting comprehensive evaluation across correctness, safety, and latency. We instantiate NetPress on three representative applications, revealing interesting fine-grained differences in agent behavior that static, correctness-only benchmarks often miss. NetPress moves LLM evaluation toward realistic, scalable testing in infrastructure-centric domains, helping close the gap between benchmark performance and real-world deployment readiness. Code is available at https://github.com/Froot-NetSys/NetPress.

NetPress: Динамически генерируемые тесты для языковых моделей в сетевых приложениях

NetPress: Dynamically Generated LLM Benchmarks for Network Applications

Аннотация

Support