DataDreamer : Un outil pour la génération de données synthétiques et des workflows reproductibles de LLM
DataDreamer: A Tool for Synthetic Data Generation and Reproducible LLM Workflows
February 16, 2024
papers.authors: Ajay Patel, Colin Raffel, Chris Callison-Burch
cs.AI
papers.abstract
Les grands modèles de langage (LLM) sont devenus un outil dominant et essentiel pour les chercheurs en traitement automatique du langage naturel (TALN) dans un large éventail de tâches. Aujourd'hui, de nombreux chercheurs utilisent les LLM pour la génération de données synthétiques, l'évaluation de tâches, le fine-tuning, la distillation et d'autres workflows de recherche impliquant des modèles en boucle. Cependant, des défis surgissent lors de l'utilisation de ces modèles, découlant de leur échelle, de leur nature propriétaire et du manque d'outils standardisés pour ces nouveaux workflows émergents. L'ascension rapide de ces modèles et ces défis uniques ont eu des impacts négatifs immédiats sur la science ouverte et sur la reproductibilité des travaux qui les utilisent. Dans cet article, nous présentons DataDreamer, une bibliothèque Python open source qui permet aux chercheurs d'écrire du code simple pour mettre en œuvre des workflows puissants avec les LLM. DataDreamer aide également les chercheurs à adhérer aux meilleures pratiques que nous proposons pour encourager la science ouverte et la reproductibilité. La bibliothèque et sa documentation sont disponibles à l'adresse suivante : https://github.com/datadreamer-dev/DataDreamer.
English
Large language models (LLMs) have become a dominant and important tool for
NLP researchers in a wide range of tasks. Today, many researchers use LLMs in
synthetic data generation, task evaluation, fine-tuning, distillation, and
other model-in-the-loop research workflows. However, challenges arise when
using these models that stem from their scale, their closed source nature, and
the lack of standardized tooling for these new and emerging workflows. The
rapid rise to prominence of these models and these unique challenges has had
immediate adverse impacts on open science and on the reproducibility of work
that uses them. In this paper, we introduce DataDreamer, an open source Python
library that allows researchers to write simple code to implement powerful LLM
workflows. DataDreamer also helps researchers adhere to best practices that we
propose to encourage open science and reproducibility. The library and
documentation are available at https://github.com/datadreamer-dev/DataDreamer .