NetPress: Puntos de Referencia Generados Dinámicamente para Aplicaciones de Red con Modelos de Lenguaje de Gran Escala
NetPress: Dynamically Generated LLM Benchmarks for Network Applications
June 3, 2025
Autores: Yajie Zhou, Jiajun Ruan, Eric S. Wang, Sadjad Fouladi, Francis Y. Yan, Kevin Hsieh, Zaoxing Liu
cs.AI
Resumen
A pesar del creciente interés en la evaluación específica de dominios para modelos de lenguaje grandes (LLMs) y agentes, las evaluaciones actuales siguen limitándose a conjuntos de datos estáticos y de pequeña escala, especialmente en tareas de alto riesgo como las operaciones de red que exigen fiabilidad para su implementación. Presentamos NetPress, un marco de generación automática de puntos de referencia para evaluar agentes LLM en aplicaciones de red. NetPress introduce una abstracción unificada con estado y acción, permitiendo la generación dinámica de diversos conjuntos de consultas junto con sus verdades de referencia. En tiempo de ejecución, los usuarios pueden especificar configuraciones de puntos de referencia para generar millones de consultas sobre la marcha. Además de la construcción dinámica de puntos de referencia, NetPress se integra con emuladores de red para proporcionar retroalimentación de entorno realista, apoyando una evaluación integral en términos de corrección, seguridad y latencia. Instanciamos NetPress en tres aplicaciones representativas, revelando diferencias interesantes y detalladas en el comportamiento de los agentes que los puntos de referencia estáticos, centrados únicamente en la corrección, suelen pasar por alto. NetPress avanza la evaluación de LLM hacia pruebas realistas y escalables en dominios centrados en infraestructura, ayudando a cerrar la brecha entre el rendimiento en los puntos de referencia y la preparación para la implementación en el mundo real. El código está disponible en https://github.com/Froot-NetSys/NetPress.
English
Despite growing interest in domain-specific benchmarking of large language
models (LLMs) and agents, current evaluations remain limited to static,
small-scale datasets, especially in high-stakes tasks like network operations
that demand reliability for deployments. We present NetPress, an automated
benchmark generation framework for evaluating LLM agents in network
applications. NetPress introduces a unified abstraction with state and action,
enabling dynamic generation of diverse query sets along with corresponding
ground truths. At runtime, users can specify benchmark configurations to
generate millions of queries on the fly. In addition to dynamic benchmark
construction, NetPress integrates with network emulators to provide realistic
environment feedback, supporting comprehensive evaluation across correctness,
safety, and latency. We instantiate NetPress on three representative
applications, revealing interesting fine-grained differences in agent behavior
that static, correctness-only benchmarks often miss. NetPress moves LLM
evaluation toward realistic, scalable testing in infrastructure-centric
domains, helping close the gap between benchmark performance and real-world
deployment readiness. Code is available at
https://github.com/Froot-NetSys/NetPress.