NetPress: Benchmarks de LLM Gerados Dinamicamente para Aplicações de Rede
NetPress: Dynamically Generated LLM Benchmarks for Network Applications
June 3, 2025
Autores: Yajie Zhou, Jiajun Ruan, Eric S. Wang, Sadjad Fouladi, Francis Y. Yan, Kevin Hsieh, Zaoxing Liu
cs.AI
Resumo
Apesar do crescente interesse em avaliações específicas de domínio para modelos de linguagem de grande escala (LLMs) e agentes, as avaliações atuais permanecem limitadas a conjuntos de dados estáticos e de pequena escala, especialmente em tarefas de alto impacto, como operações de rede, que exigem confiabilidade para implantações. Apresentamos o NetPress, uma estrutura automatizada de geração de benchmarks para avaliar agentes de LLM em aplicações de rede. O NetPress introduz uma abstração unificada com estado e ação, permitindo a geração dinâmica de conjuntos de consultas diversificados, juntamente com as respostas corretas correspondentes. Durante a execução, os usuários podem especificar configurações de benchmark para gerar milhões de consultas em tempo real. Além da construção dinâmica de benchmarks, o NetPress integra-se a emuladores de rede para fornecer feedback ambiental realista, suportando uma avaliação abrangente em termos de correção, segurança e latência. Instanciamos o NetPress em três aplicações representativas, revelando diferenças interessantes e detalhadas no comportamento dos agentes que benchmarks estáticos, focados apenas em correção, frequentemente deixam passar. O NetPress avança a avaliação de LLMs em direção a testes realistas e escaláveis em domínios centrados em infraestrutura, ajudando a reduzir a lacuna entre o desempenho em benchmarks e a prontidão para implantação no mundo real. O código está disponível em https://github.com/Froot-NetSys/NetPress.
English
Despite growing interest in domain-specific benchmarking of large language
models (LLMs) and agents, current evaluations remain limited to static,
small-scale datasets, especially in high-stakes tasks like network operations
that demand reliability for deployments. We present NetPress, an automated
benchmark generation framework for evaluating LLM agents in network
applications. NetPress introduces a unified abstraction with state and action,
enabling dynamic generation of diverse query sets along with corresponding
ground truths. At runtime, users can specify benchmark configurations to
generate millions of queries on the fly. In addition to dynamic benchmark
construction, NetPress integrates with network emulators to provide realistic
environment feedback, supporting comprehensive evaluation across correctness,
safety, and latency. We instantiate NetPress on three representative
applications, revealing interesting fine-grained differences in agent behavior
that static, correctness-only benchmarks often miss. NetPress moves LLM
evaluation toward realistic, scalable testing in infrastructure-centric
domains, helping close the gap between benchmark performance and real-world
deployment readiness. Code is available at
https://github.com/Froot-NetSys/NetPress.