ChatPaper.aiChatPaper

PROMPTEVALS: Набор данных утверждений и защитных механизмов для кастомизированных производственных конвейеров больших языковых моделей

PROMPTEVALS: A Dataset of Assertions and Guardrails for Custom Production Large Language Model Pipelines

April 20, 2025
Авторы: Reya Vir, Shreya Shankar, Harrison Chase, Will Fu-Hinthorn, Aditya Parameswaran
cs.AI

Аннотация

Крупные языковые модели (LLM) всё чаще внедряются в специализированные производственные конвейеры обработки данных в различных областях, таких как финансы, маркетинг и электронная коммерция. Однако при их использовании в производственной среде на множестве входных данных они часто не следуют инструкциям или не соответствуют ожиданиям разработчиков. Для повышения надёжности в таких приложениях важно создавать утверждения или ограничения для выходных данных LLM, которые будут работать параллельно с конвейерами. Однако определение правильного набора утверждений, которые отражают требования разработчиков для конкретной задачи, является сложной задачей. В данной статье мы представляем PROMPTEVALS — набор данных, содержащий 2087 промптов для конвейеров LLM с 12623 соответствующими критериями утверждений, собранными от разработчиков, использующих наши инструменты с открытым исходным кодом для работы с конвейерами LLM. Этот набор данных в 5 раз больше предыдущих коллекций. Используя тестовую выборку PROMPTEVALS в качестве эталона, мы оценили закрытые и открытые модели на предмет генерации релевантных утверждений. Примечательно, что наши доработанные модели Mistral и Llama 3 превосходят GPT-4o в среднем на 20,93%, предлагая как снижение задержек, так и улучшение производительности. Мы считаем, что наш набор данных может стимулировать дальнейшие исследования в области надёжности LLM, их согласованности и инженерии промптов.
English
Large language models (LLMs) are increasingly deployed in specialized production data processing pipelines across diverse domains -- such as finance, marketing, and e-commerce. However, when running them in production across many inputs, they often fail to follow instructions or meet developer expectations. To improve reliability in these applications, creating assertions or guardrails for LLM outputs to run alongside the pipelines is essential. Yet, determining the right set of assertions that capture developer requirements for a task is challenging. In this paper, we introduce PROMPTEVALS, a dataset of 2087 LLM pipeline prompts with 12623 corresponding assertion criteria, sourced from developers using our open-source LLM pipeline tools. This dataset is 5x larger than previous collections. Using a hold-out test split of PROMPTEVALS as a benchmark, we evaluated closed- and open-source models in generating relevant assertions. Notably, our fine-tuned Mistral and Llama 3 models outperform GPT-4o by 20.93% on average, offering both reduced latency and improved performance. We believe our dataset can spur further research in LLM reliability, alignment, and prompt engineering.

Summary

AI-Generated Summary

PDF42April 22, 2025