Easy Dataset : Un Cadre Unifié et Extensible pour la Synthèse de Données de Fine-Tuning de LLM à partir de Documents Non Structurés
Easy Dataset: A Unified and Extensible Framework for Synthesizing LLM Fine-Tuning Data from Unstructured Documents
July 5, 2025
Auteurs: Ziyang Miao, Qiyu Sun, Jingyuan Wang, Yuchen Gong, Yaowei Zheng, Shiqi Li, Richong Zhang
cs.AI
Résumé
Les grands modèles de langage (LLMs) ont démontré des performances impressionnantes sur des tâches générales, mais leur adaptation à des domaines spécifiques reste un défi en raison de la rareté de données de haute qualité dans ces domaines. Les outils existants de synthèse de données peinent souvent à extraire efficacement des données de fine-tuning à partir de documents hétérogènes. Pour pallier cette limitation, nous proposons Easy Dataset, un cadre unifié pour synthétiser des données de fine-tuning à partir de documents non structurés via une interface graphique intuitive (GUI). Plus précisément, Easy Dataset permet aux utilisateurs de configurer facilement des modèles d'extraction de texte et des stratégies de découpage pour transformer des documents bruts en segments de texte cohérents. Il utilise ensuite une approche de génération de questions-réponses pilotée par des personas, en s'appuyant sur des LLMs publics. Tout au long du processus, une interface visuelle avec intervention humaine facilite la révision et l'amélioration des résultats intermédiaires pour garantir la qualité des données. Des expériences sur une tâche de question-réponse financière montrent que le fine-tuning des LLMs sur le jeu de données synthétisé améliore significativement les performances spécifiques au domaine tout en préservant les connaissances générales. Le code source et le package installable sont disponibles à l'adresse https://github.com/ConardLi/easy-dataset et ont recueilli plus de 9 000 étoiles sur GitHub.
English
Large language models (LLMs) have shown impressive performance on
general-purpose tasks, yet adapting them to specific domains remains
challenging due to the scarcity of high-quality domain data. Existing data
synthesis tools often struggle to extract reliable fine-tuning data from
heterogeneous documents effectively. To address this limitation, we propose
Easy Dataset, a unified framework for synthesizing fine-tuning data from
unstructured documents via an intuitive graphical user interface (GUI).
Specifically, Easy Dataset allows users to easily configure text extraction
models and chunking strategies to transform raw documents into coherent text
chunks. It then leverages a persona-driven prompting approach to generate
diverse question-answer pairs using public-available LLMs. Throughout the
pipeline, a human-in-the-loop visual interface facilitates the review and
refinement of intermediate outputs to ensure data quality. Experiments on a
financial question-answering task show that fine-tuning LLMs on the synthesized
dataset significantly improves domain-specific performance while preserving
general knowledge. The source code and installable package are available at
https://github.com/ConardLi/easy-dataset and have garnered over 9,000 GitHub
stars.