DataDreamer : Un outil pour la génération de données synthétiques et des workflows reproductibles de LLM

Résumé

Les grands modèles de langage (LLM) sont devenus un outil dominant et essentiel pour les chercheurs en traitement automatique du langage naturel (TALN) dans un large éventail de tâches. Aujourd'hui, de nombreux chercheurs utilisent les LLM pour la génération de données synthétiques, l'évaluation de tâches, le fine-tuning, la distillation et d'autres workflows de recherche impliquant des modèles en boucle. Cependant, des défis surgissent lors de l'utilisation de ces modèles, découlant de leur échelle, de leur nature propriétaire et du manque d'outils standardisés pour ces nouveaux workflows émergents. L'ascension rapide de ces modèles et ces défis uniques ont eu des impacts négatifs immédiats sur la science ouverte et sur la reproductibilité des travaux qui les utilisent. Dans cet article, nous présentons DataDreamer, une bibliothèque Python open source qui permet aux chercheurs d'écrire du code simple pour mettre en œuvre des workflows puissants avec les LLM. DataDreamer aide également les chercheurs à adhérer aux meilleures pratiques que nous proposons pour encourager la science ouverte et la reproductibilité. La bibliothèque et sa documentation sont disponibles à l'adresse suivante : https://github.com/datadreamer-dev/DataDreamer.

English

Large language models (LLMs) have become a dominant and important tool for NLP researchers in a wide range of tasks. Today, many researchers use LLMs in synthetic data generation, task evaluation, fine-tuning, distillation, and other model-in-the-loop research workflows. However, challenges arise when using these models that stem from their scale, their closed source nature, and the lack of standardized tooling for these new and emerging workflows. The rapid rise to prominence of these models and these unique challenges has had immediate adverse impacts on open science and on the reproducibility of work that uses them. In this paper, we introduce DataDreamer, an open source Python library that allows researchers to write simple code to implement powerful LLM workflows. DataDreamer also helps researchers adhere to best practices that we propose to encourage open science and reproducibility. The library and documentation are available at https://github.com/datadreamer-dev/DataDreamer .

DataDreamer : Un outil pour la génération de données synthétiques et des workflows reproductibles de LLM

DataDreamer: A Tool for Synthetic Data Generation and Reproducible LLM Workflows

Résumé

Support