WaveCoder: Sintonizzazione Versatile e Diffusa delle Istruzioni con Generazione Raffinata dei Dati

Abstract

Recenti lavori dimostrano che, dopo essere stato sottoposto a fine-tuning su un dataset di istruzioni di alta qualità, il modello risultante può acquisire capacità impressionanti per affrontare un'ampia gamma di compiti. Tuttavia, i metodi esistenti per la generazione di dati di istruzione spesso producono dati duplicati e non sono sufficientemente controllabili in termini di qualità dei dati. In questo articolo, estendiamo la generalizzazione del fine-tuning delle istruzioni classificando i dati di istruzione in 4 compiti relativi al codice e proponiamo un framework di processo dati basato su Generator-Discriminator LLM per generare dati di istruzione diversificati e di alta qualità a partire da codice open source. Introduciamo quindi CodeOcean, un dataset composto da 20.000 istanze di istruzioni relative a 4 compiti universali legati al codice, con l'obiettivo di aumentare l'efficacia del fine-tuning delle istruzioni e migliorare la capacità di generalizzazione del modello sottoposto a fine-tuning. Successivamente, presentiamo WaveCoder, un Code LLM sottoposto a fine-tuning con un approccio Widespread And Versatile Enhanced instruction tuning. Questo modello è specificamente progettato per migliorare il fine-tuning delle istruzioni dei Code Language Models (LLMs). I nostri esperimenti dimostrano che i modelli Wavecoder superano altri modelli open-source in termini di capacità di generalizzazione su diversi compiti legati al codice, a parità di scala di fine-tuning. Inoltre, Wavecoder mostra un'elevata efficienza nei precedenti compiti di generazione di codice. Questo articolo offre quindi un contributo significativo al campo della generazione di dati di istruzione e dei modelli sottoposti a fine-tuning, fornendo nuove intuizioni e strumenti per migliorare le prestazioni nei compiti legati al codice.

English

Recent work demonstrates that, after being fine-tuned on a high-quality instruction dataset, the resulting model can obtain impressive capabilities to address a wide range of tasks. However, existing methods for instruction data generation often produce duplicate data and are not controllable enough on data quality. In this paper, we extend the generalization of instruction tuning by classifying the instruction data to 4 code-related tasks and propose a LLM-based Generator-Discriminator data process framework to generate diverse, high-quality instruction data from open source code. Hence, we introduce CodeOcean, a dataset comprising 20,000 instruction instances across 4 universal code-related tasks,which is aimed at augmenting the effectiveness of instruction tuning and improving the generalization ability of fine-tuned model. Subsequently, we present WaveCoder, a fine-tuned Code LLM with Widespread And Versatile Enhanced instruction tuning. This model is specifically designed for enhancing instruction tuning of Code Language Models (LLMs). Our experiments demonstrate that Wavecoder models outperform other open-source models in terms of generalization ability across different code-related tasks at the same level of fine-tuning scale. Moreover, Wavecoder exhibits high efficiency in previous code generation tasks. This paper thus offers a significant contribution to the field of instruction data generation and fine-tuning models, providing new insights and tools for enhancing performance in code-related tasks.

WaveCoder: Sintonizzazione Versatile e Diffusa delle Istruzioni con Generazione Raffinata dei Dati

WaveCoder: Widespread And Versatile Enhanced Instruction Tuning with Refined Data Generation

Abstract

Support