NetPress: Dynamisch gegenereerde LLM-benchmarks voor netwerktoepassingen
NetPress: Dynamically Generated LLM Benchmarks for Network Applications
June 3, 2025
Auteurs: Yajie Zhou, Jiajun Ruan, Eric S. Wang, Sadjad Fouladi, Francis Y. Yan, Kevin Hsieh, Zaoxing Liu
cs.AI
Samenvatting
Ondanks de groeiende interesse in domeinspecifieke benchmarking van grote taalmodellen (LLM's) en agents, blijven huidige evaluaties beperkt tot statische, kleinschalige datasets, vooral bij hoogrisicotaken zoals netwerkoperaties die betrouwbaarheid vereisen voor implementaties. Wij presenteren NetPress, een geautomatiseerd benchmarkgeneratieframework voor het evalueren van LLM-agents in netwerktoepassingen. NetPress introduceert een uniforme abstractie met staat en actie, waardoor dynamische generatie van diverse querysets samen met bijbehorende grondwaarden mogelijk wordt. Tijdens runtime kunnen gebruikers benchmarkconfiguraties specificeren om miljoenen queries on-the-fly te genereren. Naast dynamische benchmarkconstructie integreert NetPress met netwerkemulators om realistische omgevingsfeedback te bieden, wat een uitgebreide evaluatie ondersteunt op het gebied van correctheid, veiligheid en latentie. We implementeren NetPress op drie representatieve toepassingen, wat interessante fijnmazige verschillen in agentgedrag aan het licht brengt die statische, alleen-op-correctheid-gebaseerde benchmarks vaak missen. NetPress brengt LLM-evaluatie dichter bij realistische, schaalbare tests in infrastructuurgerichte domeinen, en helpt de kloof tussen benchmarkprestaties en gereedheid voor implementatie in de echte wereld te verkleinen. Code is beschikbaar op https://github.com/Froot-NetSys/NetPress.
English
Despite growing interest in domain-specific benchmarking of large language
models (LLMs) and agents, current evaluations remain limited to static,
small-scale datasets, especially in high-stakes tasks like network operations
that demand reliability for deployments. We present NetPress, an automated
benchmark generation framework for evaluating LLM agents in network
applications. NetPress introduces a unified abstraction with state and action,
enabling dynamic generation of diverse query sets along with corresponding
ground truths. At runtime, users can specify benchmark configurations to
generate millions of queries on the fly. In addition to dynamic benchmark
construction, NetPress integrates with network emulators to provide realistic
environment feedback, supporting comprehensive evaluation across correctness,
safety, and latency. We instantiate NetPress on three representative
applications, revealing interesting fine-grained differences in agent behavior
that static, correctness-only benchmarks often miss. NetPress moves LLM
evaluation toward realistic, scalable testing in infrastructure-centric
domains, helping close the gap between benchmark performance and real-world
deployment readiness. Code is available at
https://github.com/Froot-NetSys/NetPress.