ChatPaper.aiChatPaper

簡単なデータセット:非構造化ドキュメントからLLMファインチューニングデータを合成するための統一かつ拡張可能なフレームワーク

Easy Dataset: A Unified and Extensible Framework for Synthesizing LLM Fine-Tuning Data from Unstructured Documents

July 5, 2025
著者: Ziyang Miao, Qiyu Sun, Jingyuan Wang, Yuchen Gong, Yaowei Zheng, Shiqi Li, Richong Zhang
cs.AI

要旨

大規模言語モデル(LLMs)は汎用タスクにおいて優れた性能を示しているが、高品質なドメイン固有データの不足により、特定のドメインへの適応は依然として課題となっている。既存のデータ合成ツールは、異種ドキュメントから信頼性の高い微調整データを効果的に抽出することに苦慮することが多い。この制約を解決するため、本論文ではEasy Datasetを提案する。これは、直感的なグラフィカルユーザーインターフェース(GUI)を介して非構造化ドキュメントから微調整データを合成するための統一フレームワークである。具体的には、Easy Datasetはユーザーがテキスト抽出モデルとチャンキング戦略を容易に設定し、生のドキュメントを一貫性のあるテキストチャンクに変換することを可能にする。その後、公開されているLLMsを活用し、ペルソナ駆動型のプロンプティングアプローチを用いて多様な質問-回答ペアを生成する。パイプライン全体を通じて、人間が介入するビジュアルインターフェースが中間出力のレビューと改良を容易にし、データ品質を保証する。金融質問応答タスクにおける実験では、合成データセットでLLMsを微調整することで、ドメイン固有の性能を大幅に向上させながら、一般的な知識を保持することが示された。ソースコードとインストール可能なパッケージはhttps://github.com/ConardLi/easy-datasetで公開されており、9,000以上のGitHubスターを獲得している。
English
Large language models (LLMs) have shown impressive performance on general-purpose tasks, yet adapting them to specific domains remains challenging due to the scarcity of high-quality domain data. Existing data synthesis tools often struggle to extract reliable fine-tuning data from heterogeneous documents effectively. To address this limitation, we propose Easy Dataset, a unified framework for synthesizing fine-tuning data from unstructured documents via an intuitive graphical user interface (GUI). Specifically, Easy Dataset allows users to easily configure text extraction models and chunking strategies to transform raw documents into coherent text chunks. It then leverages a persona-driven prompting approach to generate diverse question-answer pairs using public-available LLMs. Throughout the pipeline, a human-in-the-loop visual interface facilitates the review and refinement of intermediate outputs to ensure data quality. Experiments on a financial question-answering task show that fine-tuning LLMs on the synthesized dataset significantly improves domain-specific performance while preserving general knowledge. The source code and installable package are available at https://github.com/ConardLi/easy-dataset and have garnered over 9,000 GitHub stars.
PDF121July 8, 2025