DataDreamer: Una Herramienta para la Generación de Datos Sintéticos y Flujos de Trabajo Reproducibles con LLM
DataDreamer: A Tool for Synthetic Data Generation and Reproducible LLM Workflows
February 16, 2024
Autores: Ajay Patel, Colin Raffel, Chris Callison-Burch
cs.AI
Resumen
Los modelos de lenguaje de gran escala (LLMs, por sus siglas en inglés) se han convertido en una herramienta dominante e importante para los investigadores en PLN en una amplia gama de tareas. Hoy en día, muchos investigadores utilizan LLMs en la generación de datos sintéticos, evaluación de tareas, ajuste fino, destilación y otros flujos de trabajo de investigación que involucran modelos en el ciclo. Sin embargo, surgen desafíos al utilizar estos modelos que se derivan de su escala, su naturaleza de código cerrado y la falta de herramientas estandarizadas para estos flujos de trabajo nuevos y emergentes. El rápido ascenso a la prominencia de estos modelos y estos desafíos únicos ha tenido impactos adversos inmediatos en la ciencia abierta y en la reproducibilidad del trabajo que los utiliza. En este artículo, presentamos DataDreamer, una biblioteca de Python de código abierto que permite a los investigadores escribir código simple para implementar flujos de trabajo potentes con LLMs. DataDreamer también ayuda a los investigadores a adherirse a las mejores prácticas que proponemos para fomentar la ciencia abierta y la reproducibilidad. La biblioteca y la documentación están disponibles en https://github.com/datadreamer-dev/DataDreamer.
English
Large language models (LLMs) have become a dominant and important tool for
NLP researchers in a wide range of tasks. Today, many researchers use LLMs in
synthetic data generation, task evaluation, fine-tuning, distillation, and
other model-in-the-loop research workflows. However, challenges arise when
using these models that stem from their scale, their closed source nature, and
the lack of standardized tooling for these new and emerging workflows. The
rapid rise to prominence of these models and these unique challenges has had
immediate adverse impacts on open science and on the reproducibility of work
that uses them. In this paper, we introduce DataDreamer, an open source Python
library that allows researchers to write simple code to implement powerful LLM
workflows. DataDreamer also helps researchers adhere to best practices that we
propose to encourage open science and reproducibility. The library and
documentation are available at https://github.com/datadreamer-dev/DataDreamer .