NetPress: Динамически генерируемые тесты для языковых моделей в сетевых приложениях
NetPress: Dynamically Generated LLM Benchmarks for Network Applications
June 3, 2025
Авторы: Yajie Zhou, Jiajun Ruan, Eric S. Wang, Sadjad Fouladi, Francis Y. Yan, Kevin Hsieh, Zaoxing Liu
cs.AI
Аннотация
Несмотря на растущий интерес к предметно-ориентированному тестированию больших языковых моделей (LLM) и агентов, текущие оценки ограничиваются статичными, небольшими наборами данных, особенно в критически важных задачах, таких как сетевая эксплуатация, где требуется высокая надежность для развертывания. Мы представляем NetPress — автоматизированную платформу для генерации тестовых наборов, предназначенную для оценки LLM-агентов в сетевых приложениях. NetPress вводит унифицированную абстракцию с состоянием и действием, что позволяет динамически генерировать разнообразные наборы запросов вместе с соответствующими эталонными ответами. В процессе работы пользователи могут задавать конфигурации тестов для генерации миллионов запросов на лету. Помимо динамического создания тестов, NetPress интегрируется с сетевыми эмуляторами, предоставляя реалистичную обратную связь от среды, что поддерживает всестороннюю оценку по критериям корректности, безопасности и задержек. Мы применяем NetPress в трех типичных приложениях, выявляя интересные тонкие различия в поведении агентов, которые часто упускаются статичными тестами, ориентированными только на корректность. NetPress продвигает оценку LLM в сторону реалистичного, масштабируемого тестирования в инфраструктурно-ориентированных областях, помогая сократить разрыв между производительностью на тестах и готовностью к реальному развертыванию. Код доступен по адресу: https://github.com/Froot-NetSys/NetPress.
English
Despite growing interest in domain-specific benchmarking of large language
models (LLMs) and agents, current evaluations remain limited to static,
small-scale datasets, especially in high-stakes tasks like network operations
that demand reliability for deployments. We present NetPress, an automated
benchmark generation framework for evaluating LLM agents in network
applications. NetPress introduces a unified abstraction with state and action,
enabling dynamic generation of diverse query sets along with corresponding
ground truths. At runtime, users can specify benchmark configurations to
generate millions of queries on the fly. In addition to dynamic benchmark
construction, NetPress integrates with network emulators to provide realistic
environment feedback, supporting comprehensive evaluation across correctness,
safety, and latency. We instantiate NetPress on three representative
applications, revealing interesting fine-grained differences in agent behavior
that static, correctness-only benchmarks often miss. NetPress moves LLM
evaluation toward realistic, scalable testing in infrastructure-centric
domains, helping close the gap between benchmark performance and real-world
deployment readiness. Code is available at
https://github.com/Froot-NetSys/NetPress.