ChatPaper.aiChatPaper

Easy Dataset : Un Cadre Unifié et Extensible pour la Synthèse de Données de Fine-Tuning de LLM à partir de Documents Non Structurés

Easy Dataset: A Unified and Extensible Framework for Synthesizing LLM Fine-Tuning Data from Unstructured Documents

July 5, 2025
Auteurs: Ziyang Miao, Qiyu Sun, Jingyuan Wang, Yuchen Gong, Yaowei Zheng, Shiqi Li, Richong Zhang
cs.AI

Résumé

Les grands modèles de langage (LLMs) ont démontré des performances impressionnantes sur des tâches générales, mais leur adaptation à des domaines spécifiques reste un défi en raison de la rareté de données de haute qualité dans ces domaines. Les outils existants de synthèse de données peinent souvent à extraire efficacement des données de fine-tuning à partir de documents hétérogènes. Pour pallier cette limitation, nous proposons Easy Dataset, un cadre unifié pour synthétiser des données de fine-tuning à partir de documents non structurés via une interface graphique intuitive (GUI). Plus précisément, Easy Dataset permet aux utilisateurs de configurer facilement des modèles d'extraction de texte et des stratégies de découpage pour transformer des documents bruts en segments de texte cohérents. Il utilise ensuite une approche de génération de questions-réponses pilotée par des personas, en s'appuyant sur des LLMs publics. Tout au long du processus, une interface visuelle avec intervention humaine facilite la révision et l'amélioration des résultats intermédiaires pour garantir la qualité des données. Des expériences sur une tâche de question-réponse financière montrent que le fine-tuning des LLMs sur le jeu de données synthétisé améliore significativement les performances spécifiques au domaine tout en préservant les connaissances générales. Le code source et le package installable sont disponibles à l'adresse https://github.com/ConardLi/easy-dataset et ont recueilli plus de 9 000 étoiles sur GitHub.
English
Large language models (LLMs) have shown impressive performance on general-purpose tasks, yet adapting them to specific domains remains challenging due to the scarcity of high-quality domain data. Existing data synthesis tools often struggle to extract reliable fine-tuning data from heterogeneous documents effectively. To address this limitation, we propose Easy Dataset, a unified framework for synthesizing fine-tuning data from unstructured documents via an intuitive graphical user interface (GUI). Specifically, Easy Dataset allows users to easily configure text extraction models and chunking strategies to transform raw documents into coherent text chunks. It then leverages a persona-driven prompting approach to generate diverse question-answer pairs using public-available LLMs. Throughout the pipeline, a human-in-the-loop visual interface facilitates the review and refinement of intermediate outputs to ensure data quality. Experiments on a financial question-answering task show that fine-tuning LLMs on the synthesized dataset significantly improves domain-specific performance while preserving general knowledge. The source code and installable package are available at https://github.com/ConardLi/easy-dataset and have garnered over 9,000 GitHub stars.
PDF121July 8, 2025