NetPress: Dynamisch gegenereerde LLM-benchmarks voor netwerktoepassingen

Samenvatting

Ondanks de groeiende interesse in domeinspecifieke benchmarking van grote taalmodellen (LLM's) en agents, blijven huidige evaluaties beperkt tot statische, kleinschalige datasets, vooral bij hoogrisicotaken zoals netwerkoperaties die betrouwbaarheid vereisen voor implementaties. Wij presenteren NetPress, een geautomatiseerd benchmarkgeneratieframework voor het evalueren van LLM-agents in netwerktoepassingen. NetPress introduceert een uniforme abstractie met staat en actie, waardoor dynamische generatie van diverse querysets samen met bijbehorende grondwaarden mogelijk wordt. Tijdens runtime kunnen gebruikers benchmarkconfiguraties specificeren om miljoenen queries on-the-fly te genereren. Naast dynamische benchmarkconstructie integreert NetPress met netwerkemulators om realistische omgevingsfeedback te bieden, wat een uitgebreide evaluatie ondersteunt op het gebied van correctheid, veiligheid en latentie. We implementeren NetPress op drie representatieve toepassingen, wat interessante fijnmazige verschillen in agentgedrag aan het licht brengt die statische, alleen-op-correctheid-gebaseerde benchmarks vaak missen. NetPress brengt LLM-evaluatie dichter bij realistische, schaalbare tests in infrastructuurgerichte domeinen, en helpt de kloof tussen benchmarkprestaties en gereedheid voor implementatie in de echte wereld te verkleinen. Code is beschikbaar op https://github.com/Froot-NetSys/NetPress.

English

Despite growing interest in domain-specific benchmarking of large language models (LLMs) and agents, current evaluations remain limited to static, small-scale datasets, especially in high-stakes tasks like network operations that demand reliability for deployments. We present NetPress, an automated benchmark generation framework for evaluating LLM agents in network applications. NetPress introduces a unified abstraction with state and action, enabling dynamic generation of diverse query sets along with corresponding ground truths. At runtime, users can specify benchmark configurations to generate millions of queries on the fly. In addition to dynamic benchmark construction, NetPress integrates with network emulators to provide realistic environment feedback, supporting comprehensive evaluation across correctness, safety, and latency. We instantiate NetPress on three representative applications, revealing interesting fine-grained differences in agent behavior that static, correctness-only benchmarks often miss. NetPress moves LLM evaluation toward realistic, scalable testing in infrastructure-centric domains, helping close the gap between benchmark performance and real-world deployment readiness. Code is available at https://github.com/Froot-NetSys/NetPress.

NetPress: Dynamisch gegenereerde LLM-benchmarks voor netwerktoepassingen

NetPress: Dynamically Generated LLM Benchmarks for Network Applications

Samenvatting

Support