ChatPaper.aiChatPaper

NetPress : Benchmarks LLM générés dynamiquement pour les applications réseau

NetPress: Dynamically Generated LLM Benchmarks for Network Applications

June 3, 2025
Auteurs: Yajie Zhou, Jiajun Ruan, Eric S. Wang, Sadjad Fouladi, Francis Y. Yan, Kevin Hsieh, Zaoxing Liu
cs.AI

Résumé

Malgré l'intérêt croissant pour l'évaluation spécifique à un domaine des grands modèles de langage (LLM) et des agents, les évaluations actuelles se limitent à des ensembles de données statiques et à petite échelle, en particulier dans des tâches critiques comme les opérations réseau qui exigent une fiabilité pour les déploiements. Nous présentons NetPress, un cadre de génération automatisée de benchmarks pour évaluer les agents LLM dans les applications réseau. NetPress introduit une abstraction unifiée avec état et action, permettant la génération dynamique de divers ensembles de requêtes ainsi que des vérités terrain correspondantes. À l'exécution, les utilisateurs peuvent spécifier des configurations de benchmark pour générer des millions de requêtes à la volée. En plus de la construction dynamique de benchmarks, NetPress s'intègre à des émulateurs réseau pour fournir un retour d'environnement réaliste, soutenant une évaluation complète en termes de justesse, de sécurité et de latence. Nous instancions NetPress sur trois applications représentatives, révélant des différences fines et intéressantes dans le comportement des agents que les benchmarks statiques axés uniquement sur la justesse manquent souvent. NetPress fait progresser l'évaluation des LLM vers des tests réalistes et évolutifs dans des domaines centrés sur l'infrastructure, contribuant à combler l'écart entre les performances des benchmarks et la préparation au déploiement dans le monde réel. Le code est disponible à l'adresse https://github.com/Froot-NetSys/NetPress.
English
Despite growing interest in domain-specific benchmarking of large language models (LLMs) and agents, current evaluations remain limited to static, small-scale datasets, especially in high-stakes tasks like network operations that demand reliability for deployments. We present NetPress, an automated benchmark generation framework for evaluating LLM agents in network applications. NetPress introduces a unified abstraction with state and action, enabling dynamic generation of diverse query sets along with corresponding ground truths. At runtime, users can specify benchmark configurations to generate millions of queries on the fly. In addition to dynamic benchmark construction, NetPress integrates with network emulators to provide realistic environment feedback, supporting comprehensive evaluation across correctness, safety, and latency. We instantiate NetPress on three representative applications, revealing interesting fine-grained differences in agent behavior that static, correctness-only benchmarks often miss. NetPress moves LLM evaluation toward realistic, scalable testing in infrastructure-centric domains, helping close the gap between benchmark performance and real-world deployment readiness. Code is available at https://github.com/Froot-NetSys/NetPress.
PDF33June 10, 2025