NetPress: Dynamisch generierte LLM-Benchmarks für Netzwerkanwendungen
NetPress: Dynamically Generated LLM Benchmarks for Network Applications
June 3, 2025
Autoren: Yajie Zhou, Jiajun Ruan, Eric S. Wang, Sadjad Fouladi, Francis Y. Yan, Kevin Hsieh, Zaoxing Liu
cs.AI
Zusammenfassung
Trotz des wachsenden Interesses an domänenspezifischen Benchmarks für große Sprachmodelle (LLMs) und Agenten bleiben aktuelle Bewertungen auf statische, kleinere Datensätze beschränkt, insbesondere bei hochriskanten Aufgaben wie Netzwerkoperationen, die Zuverlässigkeit für den Einsatz erfordern. Wir stellen NetPress vor, ein automatisiertes Benchmark-Generierungsframework zur Bewertung von LLM-Agenten in Netzwerkanwendungen. NetPress führt eine einheitliche Abstraktion mit Zustand und Aktion ein, die die dynamische Erzeugung vielfältiger Abfragesätze zusammen mit entsprechenden Grundwahrheiten ermöglicht. Zur Laufzeit können Benutzer Benchmark-Konfigurationen angeben, um Millionen von Abfragen on-the-fly zu generieren. Neben der dynamischen Benchmark-Konstruktion integriert sich NetPress mit Netzwerkemulatoren, um realistische Umgebungsrückmeldungen zu liefern, und unterstützt so eine umfassende Bewertung hinsichtlich Korrektheit, Sicherheit und Latenz. Wir implementieren NetPress in drei repräsentativen Anwendungen und decken dabei interessante, feinkörnige Unterschiede im Agentenverhalten auf, die statische, rein auf Korrektheit basierende Benchmarks oft übersehen. NetPress bewegt die LLM-Bewertung in Richtung realistischer, skalierbarer Tests in infrastrukturzentrierten Domänen und hilft dabei, die Lücke zwischen Benchmark-Leistung und Einsatzbereitschaft in der realen Welt zu schließen. Der Code ist verfügbar unter https://github.com/Froot-NetSys/NetPress.
English
Despite growing interest in domain-specific benchmarking of large language
models (LLMs) and agents, current evaluations remain limited to static,
small-scale datasets, especially in high-stakes tasks like network operations
that demand reliability for deployments. We present NetPress, an automated
benchmark generation framework for evaluating LLM agents in network
applications. NetPress introduces a unified abstraction with state and action,
enabling dynamic generation of diverse query sets along with corresponding
ground truths. At runtime, users can specify benchmark configurations to
generate millions of queries on the fly. In addition to dynamic benchmark
construction, NetPress integrates with network emulators to provide realistic
environment feedback, supporting comprehensive evaluation across correctness,
safety, and latency. We instantiate NetPress on three representative
applications, revealing interesting fine-grained differences in agent behavior
that static, correctness-only benchmarks often miss. NetPress moves LLM
evaluation toward realistic, scalable testing in infrastructure-centric
domains, helping close the gap between benchmark performance and real-world
deployment readiness. Code is available at
https://github.com/Froot-NetSys/NetPress.