Conjunto de Dados Fácil: Um Framework Unificado e Extensível para Sintetizar Dados de Ajuste Fino de LLM a partir de Documentos Não Estruturados
Easy Dataset: A Unified and Extensible Framework for Synthesizing LLM Fine-Tuning Data from Unstructured Documents
July 5, 2025
Autores: Ziyang Miao, Qiyu Sun, Jingyuan Wang, Yuchen Gong, Yaowei Zheng, Shiqi Li, Richong Zhang
cs.AI
Resumo
Modelos de linguagem de grande escala (LLMs) têm demonstrado desempenho impressionante em tarefas de propósito geral, mas adaptá-los a domínios específicos continua sendo um desafio devido à escassez de dados de alta qualidade no domínio. As ferramentas existentes de síntese de dados frequentemente têm dificuldade em extrair dados confiáveis para ajuste fino de documentos heterogêneos de forma eficaz. Para superar essa limitação, propomos o Easy Dataset, um framework unificado para sintetizar dados de ajuste fino a partir de documentos não estruturados por meio de uma interface gráfica do usuário (GUI) intuitiva. Especificamente, o Easy Dataset permite que os usuários configurem facilmente modelos de extração de texto e estratégias de segmentação para transformar documentos brutos em trechos de texto coerentes. Em seguida, ele utiliza uma abordagem de geração de prompts baseada em personas para criar pares de perguntas e respostas diversos usando LLMs disponíveis publicamente. Ao longo do pipeline, uma interface visual com intervenção humana facilita a revisão e o refinamento dos resultados intermediários para garantir a qualidade dos dados. Experimentos em uma tarefa de questionamento e resposta no domínio financeiro mostram que o ajuste fino de LLMs no conjunto de dados sintetizado melhora significativamente o desempenho específico do domínio, preservando o conhecimento geral. O código-fonte e o pacote instalável estão disponíveis em https://github.com/ConardLi/easy-dataset e já receberam mais de 9.000 estrelas no GitHub.
English
Large language models (LLMs) have shown impressive performance on
general-purpose tasks, yet adapting them to specific domains remains
challenging due to the scarcity of high-quality domain data. Existing data
synthesis tools often struggle to extract reliable fine-tuning data from
heterogeneous documents effectively. To address this limitation, we propose
Easy Dataset, a unified framework for synthesizing fine-tuning data from
unstructured documents via an intuitive graphical user interface (GUI).
Specifically, Easy Dataset allows users to easily configure text extraction
models and chunking strategies to transform raw documents into coherent text
chunks. It then leverages a persona-driven prompting approach to generate
diverse question-answer pairs using public-available LLMs. Throughout the
pipeline, a human-in-the-loop visual interface facilitates the review and
refinement of intermediate outputs to ensure data quality. Experiments on a
financial question-answering task show that fine-tuning LLMs on the synthesized
dataset significantly improves domain-specific performance while preserving
general knowledge. The source code and installable package are available at
https://github.com/ConardLi/easy-dataset and have garnered over 9,000 GitHub
stars.