ChatPaper.aiChatPaper

PROMPTEVALS: Um Conjunto de Dados de Afirmações e Salvaguardas para Pipelines Personalizados de Modelos de Linguagem de Grande Escala em Produção

PROMPTEVALS: A Dataset of Assertions and Guardrails for Custom Production Large Language Model Pipelines

April 20, 2025
Autores: Reya Vir, Shreya Shankar, Harrison Chase, Will Fu-Hinthorn, Aditya Parameswaran
cs.AI

Resumo

Modelos de linguagem de grande escala (LLMs) estão sendo cada vez mais implantados em pipelines especializados de processamento de dados de produção em diversos domínios — como finanças, marketing e comércio eletrônico. No entanto, ao executá-los em produção com muitas entradas, eles frequentemente falham em seguir instruções ou atender às expectativas dos desenvolvedores. Para melhorar a confiabilidade nessas aplicações, é essencial criar asserções ou guardrails para as saídas dos LLMs que funcionem em conjunto com os pipelines. No entanto, determinar o conjunto correto de asserções que capturam os requisitos dos desenvolvedores para uma tarefa é desafiador. Neste artigo, apresentamos o PROMPTEVALS, um conjunto de dados com 2087 prompts de pipelines de LLMs e 12623 critérios de asserção correspondentes, obtidos de desenvolvedores que utilizam nossas ferramentas de pipeline de LLMs de código aberto. Esse conjunto de dados é 5 vezes maior do que coleções anteriores. Usando uma divisão de teste reservada do PROMPTEVALS como benchmark, avaliamos modelos de código fechado e aberto na geração de asserções relevantes. Notavelmente, nossos modelos Mistral e Llama 3 ajustados superam o GPT-4o em média 20,93%, oferecendo tanto latência reduzida quanto desempenho aprimorado. Acreditamos que nosso conjunto de dados pode impulsionar mais pesquisas em confiabilidade, alinhamento e engenharia de prompts para LLMs.
English
Large language models (LLMs) are increasingly deployed in specialized production data processing pipelines across diverse domains -- such as finance, marketing, and e-commerce. However, when running them in production across many inputs, they often fail to follow instructions or meet developer expectations. To improve reliability in these applications, creating assertions or guardrails for LLM outputs to run alongside the pipelines is essential. Yet, determining the right set of assertions that capture developer requirements for a task is challenging. In this paper, we introduce PROMPTEVALS, a dataset of 2087 LLM pipeline prompts with 12623 corresponding assertion criteria, sourced from developers using our open-source LLM pipeline tools. This dataset is 5x larger than previous collections. Using a hold-out test split of PROMPTEVALS as a benchmark, we evaluated closed- and open-source models in generating relevant assertions. Notably, our fine-tuned Mistral and Llama 3 models outperform GPT-4o by 20.93% on average, offering both reduced latency and improved performance. We believe our dataset can spur further research in LLM reliability, alignment, and prompt engineering.
PDF52December 11, 2025