Explorando a Consistência de Formato para o Ajuste por Instrução

Resumo

O ajuste por instruções surgiu como uma abordagem promissora para aprimorar modelos de linguagem de grande escala no seguimento de instruções humanas. Demonstrou-se que aumentar a diversidade e o número de instruções nos dados de treinamento pode consistentemente melhorar o desempenho de generalização, o que impulsiona um esforço recente para coletar várias instruções e integrar conjuntos de dados de ajuste por instruções em coleções maiores. No entanto, diferentes usuários têm suas próprias maneiras de expressar instruções, e frequentemente existem variações entre diferentes conjuntos de dados nos estilos e formatos das instruções, ou seja, inconsistência de formato. Neste trabalho, estudamos como a inconsistência de formato pode impactar o desempenho do ajuste por instruções. Propomos uma estrutura chamada "Unified Instruction Tuning" (UIT), que utiliza APIs da OpenAI para transferência automática de formato entre diferentes conjuntos de dados de ajuste por instruções. Mostramos que o UIT melhora com sucesso o desempenho de generalização em instruções não vistas, destacando a importância da consistência de formato para o ajuste por instruções. Para tornar a estrutura UIT mais prática, propomos ainda um novo método de redução de ruído baseado em perplexidade para diminuir o ruído da transferência automática de formato. Também treinamos um modelo offline menor que alcança capacidade de transferência de formato comparável às APIs da OpenAI para reduzir custos na prática.

English

Instruction tuning has emerged as a promising approach to enhancing large language models in following human instructions. It is shown that increasing the diversity and number of instructions in the training data can consistently enhance generalization performance, which facilitates a recent endeavor to collect various instructions and integrate existing instruction tuning datasets into larger collections. However, different users have their unique ways of expressing instructions, and there often exist variations across different datasets in the instruction styles and formats, i.e., format inconsistency. In this work, we study how format inconsistency may impact the performance of instruction tuning. We propose a framework called "Unified Instruction Tuning" (UIT), which calls OpenAI APIs for automatic format transfer among different instruction tuning datasets. We show that UIT successfully improves the generalization performance on unseen instructions, which highlights the importance of format consistency for instruction tuning. To make the UIT framework more practical, we further propose a novel perplexity-based denoising method to reduce the noise of automatic format transfer. We also train a smaller offline model that achieves comparable format transfer capability than OpenAI APIs to reduce costs in practice.

Explorando a Consistência de Formato para o Ajuste por Instrução

Exploring Format Consistency for Instruction Tuning

Resumo

Support