WaveCoder: Ajuste de Instrucciones Mejorado Generalizado y Versátil con Generación de Datos Refinada

Resumen

Trabajos recientes demuestran que, después de ser ajustado en un conjunto de datos de instrucciones de alta calidad, el modelo resultante puede adquirir capacidades impresionantes para abordar una amplia gama de tareas. Sin embargo, los métodos existentes para la generación de datos de instrucciones a menudo producen datos duplicados y no son lo suficientemente controlables en cuanto a la calidad de los datos. En este artículo, extendemos la generalización del ajuste por instrucciones clasificando los datos de instrucciones en 4 tareas relacionadas con código y proponemos un marco de procesamiento de datos basado en Generador-Discriminador con modelos de lenguaje (LLM) para generar datos de instrucciones diversos y de alta calidad a partir de código de fuente abierta. Así, presentamos CodeOcean, un conjunto de datos que comprende 20,000 instancias de instrucciones en 4 tareas universales relacionadas con código, cuyo objetivo es aumentar la efectividad del ajuste por instrucciones y mejorar la capacidad de generalización del modelo ajustado. Posteriormente, presentamos WaveCoder, un modelo de lenguaje de código (Code LLM) ajustado con un ajuste por instrucciones amplio y versátil mejorado (Widespread And Versatile Enhanced instruction tuning). Este modelo está específicamente diseñado para mejorar el ajuste por instrucciones de los modelos de lenguaje de código (LLMs). Nuestros experimentos demuestran que los modelos Wavecoder superan a otros modelos de código abierto en términos de capacidad de generalización en diferentes tareas relacionadas con código en el mismo nivel de escala de ajuste. Además, Wavecoder exhibe una alta eficiencia en tareas previas de generación de código. Este artículo ofrece, por lo tanto, una contribución significativa al campo de la generación de datos de instrucciones y el ajuste de modelos, proporcionando nuevas perspectivas y herramientas para mejorar el rendimiento en tareas relacionadas con código.

English

Recent work demonstrates that, after being fine-tuned on a high-quality instruction dataset, the resulting model can obtain impressive capabilities to address a wide range of tasks. However, existing methods for instruction data generation often produce duplicate data and are not controllable enough on data quality. In this paper, we extend the generalization of instruction tuning by classifying the instruction data to 4 code-related tasks and propose a LLM-based Generator-Discriminator data process framework to generate diverse, high-quality instruction data from open source code. Hence, we introduce CodeOcean, a dataset comprising 20,000 instruction instances across 4 universal code-related tasks,which is aimed at augmenting the effectiveness of instruction tuning and improving the generalization ability of fine-tuned model. Subsequently, we present WaveCoder, a fine-tuned Code LLM with Widespread And Versatile Enhanced instruction tuning. This model is specifically designed for enhancing instruction tuning of Code Language Models (LLMs). Our experiments demonstrate that Wavecoder models outperform other open-source models in terms of generalization ability across different code-related tasks at the same level of fine-tuning scale. Moreover, Wavecoder exhibits high efficiency in previous code generation tasks. This paper thus offers a significant contribution to the field of instruction data generation and fine-tuning models, providing new insights and tools for enhancing performance in code-related tasks.

WaveCoder: Ajuste de Instrucciones Mejorado Generalizado y Versátil con Generación de Datos Refinada

WaveCoder: Widespread And Versatile Enhanced Instruction Tuning with Refined Data Generation

Resumen

Support