NetPress: Puntos de Referencia Generados Dinámicamente para Aplicaciones de Red con Modelos de Lenguaje de Gran Escala

Resumen

A pesar del creciente interés en la evaluación específica de dominios para modelos de lenguaje grandes (LLMs) y agentes, las evaluaciones actuales siguen limitándose a conjuntos de datos estáticos y de pequeña escala, especialmente en tareas de alto riesgo como las operaciones de red que exigen fiabilidad para su implementación. Presentamos NetPress, un marco de generación automática de puntos de referencia para evaluar agentes LLM en aplicaciones de red. NetPress introduce una abstracción unificada con estado y acción, permitiendo la generación dinámica de diversos conjuntos de consultas junto con sus verdades de referencia. En tiempo de ejecución, los usuarios pueden especificar configuraciones de puntos de referencia para generar millones de consultas sobre la marcha. Además de la construcción dinámica de puntos de referencia, NetPress se integra con emuladores de red para proporcionar retroalimentación de entorno realista, apoyando una evaluación integral en términos de corrección, seguridad y latencia. Instanciamos NetPress en tres aplicaciones representativas, revelando diferencias interesantes y detalladas en el comportamiento de los agentes que los puntos de referencia estáticos, centrados únicamente en la corrección, suelen pasar por alto. NetPress avanza la evaluación de LLM hacia pruebas realistas y escalables en dominios centrados en infraestructura, ayudando a cerrar la brecha entre el rendimiento en los puntos de referencia y la preparación para la implementación en el mundo real. El código está disponible en https://github.com/Froot-NetSys/NetPress.

English

Despite growing interest in domain-specific benchmarking of large language models (LLMs) and agents, current evaluations remain limited to static, small-scale datasets, especially in high-stakes tasks like network operations that demand reliability for deployments. We present NetPress, an automated benchmark generation framework for evaluating LLM agents in network applications. NetPress introduces a unified abstraction with state and action, enabling dynamic generation of diverse query sets along with corresponding ground truths. At runtime, users can specify benchmark configurations to generate millions of queries on the fly. In addition to dynamic benchmark construction, NetPress integrates with network emulators to provide realistic environment feedback, supporting comprehensive evaluation across correctness, safety, and latency. We instantiate NetPress on three representative applications, revealing interesting fine-grained differences in agent behavior that static, correctness-only benchmarks often miss. NetPress moves LLM evaluation toward realistic, scalable testing in infrastructure-centric domains, helping close the gap between benchmark performance and real-world deployment readiness. Code is available at https://github.com/Froot-NetSys/NetPress.

NetPress: Puntos de Referencia Generados Dinámicamente para Aplicaciones de Red con Modelos de Lenguaje de Gran Escala

NetPress: Dynamically Generated LLM Benchmarks for Network Applications

Resumen

Support