ChatPaper.aiChatPaper

DataDreamer: Una Herramienta para la Generación de Datos Sintéticos y Flujos de Trabajo Reproducibles con LLM

DataDreamer: A Tool for Synthetic Data Generation and Reproducible LLM Workflows

February 16, 2024
Autores: Ajay Patel, Colin Raffel, Chris Callison-Burch
cs.AI

Resumen

Los modelos de lenguaje de gran escala (LLMs, por sus siglas en inglés) se han convertido en una herramienta dominante e importante para los investigadores en PLN en una amplia gama de tareas. Hoy en día, muchos investigadores utilizan LLMs en la generación de datos sintéticos, evaluación de tareas, ajuste fino, destilación y otros flujos de trabajo de investigación que involucran modelos en el ciclo. Sin embargo, surgen desafíos al utilizar estos modelos que se derivan de su escala, su naturaleza de código cerrado y la falta de herramientas estandarizadas para estos flujos de trabajo nuevos y emergentes. El rápido ascenso a la prominencia de estos modelos y estos desafíos únicos ha tenido impactos adversos inmediatos en la ciencia abierta y en la reproducibilidad del trabajo que los utiliza. En este artículo, presentamos DataDreamer, una biblioteca de Python de código abierto que permite a los investigadores escribir código simple para implementar flujos de trabajo potentes con LLMs. DataDreamer también ayuda a los investigadores a adherirse a las mejores prácticas que proponemos para fomentar la ciencia abierta y la reproducibilidad. La biblioteca y la documentación están disponibles en https://github.com/datadreamer-dev/DataDreamer.
English
Large language models (LLMs) have become a dominant and important tool for NLP researchers in a wide range of tasks. Today, many researchers use LLMs in synthetic data generation, task evaluation, fine-tuning, distillation, and other model-in-the-loop research workflows. However, challenges arise when using these models that stem from their scale, their closed source nature, and the lack of standardized tooling for these new and emerging workflows. The rapid rise to prominence of these models and these unique challenges has had immediate adverse impacts on open science and on the reproducibility of work that uses them. In this paper, we introduce DataDreamer, an open source Python library that allows researchers to write simple code to implement powerful LLM workflows. DataDreamer also helps researchers adhere to best practices that we propose to encourage open science and reproducibility. The library and documentation are available at https://github.com/datadreamer-dev/DataDreamer .
PDF322December 15, 2024