ChatPaper.aiChatPaper

WaveCoder: Ajuste de Instrução Aprimorado Generalizado e Versátil com Geração de Dados Refinada

WaveCoder: Widespread And Versatile Enhanced Instruction Tuning with Refined Data Generation

December 20, 2023
Autores: Zhaojian Yu, Xin Zhang, Ning Shang, Yangyu Huang, Can Xu, Yishujie Zhao, Wenxiang Hu, Qiufeng Yin
cs.AI

Resumo

Trabalhos recentes demonstram que, após ser ajustado em um conjunto de dados de instruções de alta qualidade, o modelo resultante pode obter capacidades impressionantes para abordar uma ampla gama de tarefas. No entanto, os métodos existentes para geração de dados de instruções frequentemente produzem dados duplicados e não são suficientemente controláveis em termos de qualidade dos dados. Neste artigo, estendemos a generalização do ajuste fino de instruções classificando os dados de instruções em 4 tarefas relacionadas a código e propomos uma estrutura de processo de dados baseada em Gerador-Discriminador de LLM para gerar dados de instruções diversos e de alta qualidade a partir de código de código aberto. Assim, introduzimos o CodeOcean, um conjunto de dados composto por 20.000 instâncias de instruções em 4 tarefas universais relacionadas a código, que visa aumentar a eficácia do ajuste fino de instruções e melhorar a capacidade de generalização do modelo ajustado. Posteriormente, apresentamos o WaveCoder, um Code LLM ajustado com Ajuste Fino de Instruções Amplo e Versátil Aprimorado. Este modelo é especificamente projetado para aprimorar o ajuste fino de instruções de Modelos de Linguagem de Código (LLMs). Nossos experimentos demonstram que os modelos Wavecoder superam outros modelos de código aberto em termos de capacidade de generalização em diferentes tarefas relacionadas a código no mesmo nível de escala de ajuste fino. Além disso, o Wavecoder exibe alta eficiência em tarefas anteriores de geração de código. Este artigo, portanto, oferece uma contribuição significativa para o campo de geração de dados de instruções e ajuste fino de modelos, fornecendo novas perspectivas e ferramentas para aprimorar o desempenho em tarefas relacionadas a código.
English
Recent work demonstrates that, after being fine-tuned on a high-quality instruction dataset, the resulting model can obtain impressive capabilities to address a wide range of tasks. However, existing methods for instruction data generation often produce duplicate data and are not controllable enough on data quality. In this paper, we extend the generalization of instruction tuning by classifying the instruction data to 4 code-related tasks and propose a LLM-based Generator-Discriminator data process framework to generate diverse, high-quality instruction data from open source code. Hence, we introduce CodeOcean, a dataset comprising 20,000 instruction instances across 4 universal code-related tasks,which is aimed at augmenting the effectiveness of instruction tuning and improving the generalization ability of fine-tuned model. Subsequently, we present WaveCoder, a fine-tuned Code LLM with Widespread And Versatile Enhanced instruction tuning. This model is specifically designed for enhancing instruction tuning of Code Language Models (LLMs). Our experiments demonstrate that Wavecoder models outperform other open-source models in terms of generalization ability across different code-related tasks at the same level of fine-tuning scale. Moreover, Wavecoder exhibits high efficiency in previous code generation tasks. This paper thus offers a significant contribution to the field of instruction data generation and fine-tuning models, providing new insights and tools for enhancing performance in code-related tasks.
PDF495February 8, 2026