Esplorare la Coerenza del Formato per il Fine-Tuning delle Istruzioni

Abstract

Il fine-tuning basato su istruzioni è emerso come un approccio promettente per migliorare i grandi modelli linguistici nel seguire le istruzioni umane. È dimostrato che aumentare la diversità e il numero di istruzioni nei dati di addestramento può migliorare costantemente le prestazioni di generalizzazione, il che facilita un recente sforzo per raccogliere varie istruzioni e integrare i dataset esistenti di fine-tuning delle istruzioni in raccolte più ampie. Tuttavia, diversi utenti hanno modi unici di esprimere le istruzioni, e spesso esistono variazioni tra i diversi dataset negli stili e nei formati delle istruzioni, ovvero inconsistenza di formato. In questo lavoro, studiamo come l'inconsistenza di formato possa influenzare le prestazioni del fine-tuning basato su istruzioni. Proponiamo un framework chiamato "Unified Instruction Tuning" (UIT), che utilizza le API di OpenAI per il trasferimento automatico del formato tra diversi dataset di fine-tuning delle istruzioni. Mostriamo che UIT migliora con successo le prestazioni di generalizzazione su istruzioni non viste, evidenziando l'importanza della coerenza di formato per il fine-tuning delle istruzioni. Per rendere il framework UIT più pratico, proponiamo ulteriormente un nuovo metodo di denoising basato sulla perplessità per ridurre il rumore del trasferimento automatico del formato. Addestriamo anche un modello offline più piccolo che raggiunge una capacità di trasferimento del formato comparabile a quella delle API di OpenAI, per ridurre i costi nella pratica.

English

Instruction tuning has emerged as a promising approach to enhancing large language models in following human instructions. It is shown that increasing the diversity and number of instructions in the training data can consistently enhance generalization performance, which facilitates a recent endeavor to collect various instructions and integrate existing instruction tuning datasets into larger collections. However, different users have their unique ways of expressing instructions, and there often exist variations across different datasets in the instruction styles and formats, i.e., format inconsistency. In this work, we study how format inconsistency may impact the performance of instruction tuning. We propose a framework called "Unified Instruction Tuning" (UIT), which calls OpenAI APIs for automatic format transfer among different instruction tuning datasets. We show that UIT successfully improves the generalization performance on unseen instructions, which highlights the importance of format consistency for instruction tuning. To make the UIT framework more practical, we further propose a novel perplexity-based denoising method to reduce the noise of automatic format transfer. We also train a smaller offline model that achieves comparable format transfer capability than OpenAI APIs to reduce costs in practice.

Esplorare la Coerenza del Formato per il Fine-Tuning delle Istruzioni

Exploring Format Consistency for Instruction Tuning

Abstract

Support