Come si comportano i tuoi LLM nel codice? Potenziare il tuning dell'istruzione del codice con dati di alta qualità.How Do Your Code LLMs Perform? Empowering Code Instruction Tuning with
High-Quality Data
Recentemente c'è stato un crescente interesse nello studio di come costruire dati di sintonizzazione delle istruzioni di codice migliori. Tuttavia, osserviamo che i modelli di codice addestrati con questi set di dati mostrano elevate prestazioni su HumanEval ma ottengono risultati peggiori su altri benchmark come LiveCodeBench. Dopo un'ulteriore indagine, scopriamo che molti set di dati soffrono di gravi perdite di dati. Dopo aver eliminato la maggior parte dei dati fuoriusciti, alcuni noti set di dati di alta qualità ottengono prestazioni scadenti. Questa scoperta rivela una nuova sfida: identificare quali set di dati si qualificano effettivamente come dati di istruzioni di codice di alta qualità. Per affrontare questo problema, proponiamo una strategia efficiente di potatura dei dati di codice per la selezione di campioni validi. Il nostro approccio si basa su tre dimensioni: complessità dell'istruzione, qualità della risposta e diversità dell'istruzione. Sulla base dei nostri dati selezionati, presentiamo XCoder, una famiglia di modelli ottimizzati da LLaMA3. I nostri esperimenti mostrano che XCoder raggiunge nuove prestazioni di primo piano utilizzando meno dati di addestramento, confermando l'efficacia della nostra strategia sui dati. Inoltre, conduciamo un'analisi esaustiva sulla composizione dei dati e scopriamo che i set di dati di codice esistenti hanno caratteristiche diverse in base ai loro metodi di costruzione, offrendo nuove prospettive per i futuri LLM di codice. I nostri modelli e set di dati sono disponibili su https://github.com/banksy23/XCoder