PROMPTEVALS: Un conjunto de datos de aserciones y salvaguardas para tuberías personalizadas de modelos de lenguaje de gran escala en producción
PROMPTEVALS: A Dataset of Assertions and Guardrails for Custom Production Large Language Model Pipelines
April 20, 2025
Autores: Reya Vir, Shreya Shankar, Harrison Chase, Will Fu-Hinthorn, Aditya Parameswaran
cs.AI
Resumen
Los modelos de lenguaje de gran escala (LLMs, por sus siglas en inglés) se están implementando cada vez más en pipelines de procesamiento de datos especializados en diversos dominios, como finanzas, marketing y comercio electrónico. Sin embargo, al ejecutarlos en producción con muchas entradas, a menudo no siguen las instrucciones o no cumplen con las expectativas de los desarrolladores. Para mejorar la confiabilidad en estas aplicaciones, es esencial crear aserciones o barreras de protección para las salidas de los LLMs que se ejecuten junto con los pipelines. No obstante, determinar el conjunto correcto de aserciones que capturen los requisitos de los desarrolladores para una tarea es un desafío. En este artículo, presentamos PROMPTEVALS, un conjunto de datos de 2087 prompts de pipelines de LLMs con 12623 criterios de aserción correspondientes, obtenidos de desarrolladores que utilizan nuestras herramientas de código abierto para pipelines de LLMs. Este conjunto de datos es 5 veces más grande que colecciones anteriores. Utilizando una división de prueba reservada de PROMPTEVALS como punto de referencia, evaluamos modelos cerrados y de código abierto en la generación de aserciones relevantes. Notablemente, nuestros modelos ajustados de Mistral y Llama 3 superan a GPT-4o en un 20.93% en promedio, ofreciendo tanto una latencia reducida como un rendimiento mejorado. Creemos que nuestro conjunto de datos puede impulsar más investigaciones en confiabilidad, alineación e ingeniería de prompts para LLMs.
English
Large language models (LLMs) are increasingly deployed in specialized
production data processing pipelines across diverse domains -- such as finance,
marketing, and e-commerce. However, when running them in production across many
inputs, they often fail to follow instructions or meet developer expectations.
To improve reliability in these applications, creating assertions or guardrails
for LLM outputs to run alongside the pipelines is essential. Yet, determining
the right set of assertions that capture developer requirements for a task is
challenging. In this paper, we introduce PROMPTEVALS, a dataset of 2087 LLM
pipeline prompts with 12623 corresponding assertion criteria, sourced from
developers using our open-source LLM pipeline tools. This dataset is 5x larger
than previous collections. Using a hold-out test split of PROMPTEVALS as a
benchmark, we evaluated closed- and open-source models in generating relevant
assertions. Notably, our fine-tuned Mistral and Llama 3 models outperform
GPT-4o by 20.93% on average, offering both reduced latency and improved
performance. We believe our dataset can spur further research in LLM
reliability, alignment, and prompt engineering.Summary
AI-Generated Summary