簡単なデータセット:非構造化ドキュメントからLLMファインチューニングデータを合成するための統一かつ拡張可能なフレームワーク
Easy Dataset: A Unified and Extensible Framework for Synthesizing LLM Fine-Tuning Data from Unstructured Documents
July 5, 2025
著者: Ziyang Miao, Qiyu Sun, Jingyuan Wang, Yuchen Gong, Yaowei Zheng, Shiqi Li, Richong Zhang
cs.AI
要旨
大規模言語モデル(LLMs)は汎用タスクにおいて優れた性能を示しているが、高品質なドメイン固有データの不足により、特定のドメインへの適応は依然として課題となっている。既存のデータ合成ツールは、異種ドキュメントから信頼性の高い微調整データを効果的に抽出することに苦慮することが多い。この制約を解決するため、本論文ではEasy Datasetを提案する。これは、直感的なグラフィカルユーザーインターフェース(GUI)を介して非構造化ドキュメントから微調整データを合成するための統一フレームワークである。具体的には、Easy Datasetはユーザーがテキスト抽出モデルとチャンキング戦略を容易に設定し、生のドキュメントを一貫性のあるテキストチャンクに変換することを可能にする。その後、公開されているLLMsを活用し、ペルソナ駆動型のプロンプティングアプローチを用いて多様な質問-回答ペアを生成する。パイプライン全体を通じて、人間が介入するビジュアルインターフェースが中間出力のレビューと改良を容易にし、データ品質を保証する。金融質問応答タスクにおける実験では、合成データセットでLLMsを微調整することで、ドメイン固有の性能を大幅に向上させながら、一般的な知識を保持することが示された。ソースコードとインストール可能なパッケージはhttps://github.com/ConardLi/easy-datasetで公開されており、9,000以上のGitHubスターを獲得している。
English
Large language models (LLMs) have shown impressive performance on
general-purpose tasks, yet adapting them to specific domains remains
challenging due to the scarcity of high-quality domain data. Existing data
synthesis tools often struggle to extract reliable fine-tuning data from
heterogeneous documents effectively. To address this limitation, we propose
Easy Dataset, a unified framework for synthesizing fine-tuning data from
unstructured documents via an intuitive graphical user interface (GUI).
Specifically, Easy Dataset allows users to easily configure text extraction
models and chunking strategies to transform raw documents into coherent text
chunks. It then leverages a persona-driven prompting approach to generate
diverse question-answer pairs using public-available LLMs. Throughout the
pipeline, a human-in-the-loop visual interface facilitates the review and
refinement of intermediate outputs to ensure data quality. Experiments on a
financial question-answering task show that fine-tuning LLMs on the synthesized
dataset significantly improves domain-specific performance while preserving
general knowledge. The source code and installable package are available at
https://github.com/ConardLi/easy-dataset and have garnered over 9,000 GitHub
stars.