ChatPaper.aiChatPaper

Minería de Instrucciones: Selección de Datos de Instrucción de Alta Calidad para Modelos de Lenguaje a Gran Escala

Instruction Mining: High-Quality Instruction Data Selection for Large Language Models

July 12, 2023
Autores: Yihan Cao, Yanbin Kang, Lichao Sun
cs.AI

Resumen

Los modelos de lenguaje de gran escala suelen pasar por dos etapas de entrenamiento: el preentrenamiento y el ajuste fino. A pesar de que el preentrenamiento a gran escala dota al modelo de una gran capacidad para generar respuestas en lenguaje natural, estos modelos preentrenados aún pueden fallar en ocasiones al comprender las instrucciones humanas. Para mejorar la capacidad de los modelos de lenguaje para interpretar y responder a instrucciones, el ajuste fino con instrucciones ha surgido como un método crítico en este ámbito. Estudios recientes han encontrado que los modelos de lenguaje de gran escala pueden ajustarse para desempeñarse bien incluso con una pequeña cantidad de datos de alta calidad que sigan instrucciones. Sin embargo, la selección de conjuntos de datos de alta calidad para ajustar modelos de lenguaje aún carece de directrices claras a seguir. En este artículo, proponemos InstructMining, una regla lineal para evaluar la calidad de los datos que siguen instrucciones. Formulamos InstructMining utilizando indicadores específicos de lenguaje natural. Para investigar la relación entre la calidad de los datos y estos indicadores, realizamos además extensos experimentos de ajuste fino. Los resultados de los experimentos se aplican luego para estimar los parámetros en InstructMining. Para investigar más a fondo su rendimiento, utilizamos InstructMining para seleccionar datos de alta calidad de conjuntos de datos no vistos. Los resultados demuestran que InstructMining puede ayudar a seleccionar muestras relativamente de alta calidad de varios conjuntos de datos que siguen instrucciones. En comparación con los modelos ajustados en conjuntos de datos no filtrados, los modelos ajustados en conjuntos de datos seleccionados por InstructMining se desempeñan mejor en el 42.5% de los casos.
English
Large language models typically undergo two training stages, pretraining and finetuning. Despite that large-scale pretraining endows the model with strong capabilities to generate natural language responses, these pretrained models can still fail to understand human instructions at times. To enhance language models' ability of interpreting and responding to instructions, instruction finetuning has emerged as a critical method in this area. Recent studies found that large language models can be finetuned to perform well even with a small amount of high-quality instruction-following data. However, the selection of high-quality datasets for finetuning language models still lacks clear guidelines to follow. In this paper, we propose InstructMining, a linear rule for evaluating instruction-following data quality. We formulate InstructMining using specific natural language indicators. To investigate the relationship between data quality and these indicators, we further conduct extensive finetuning experiments. The experiment results are then applied to estimating parameters in InstructMining. To further investigate its performance, we use InstructMining to select high-quality data from unseen datasets. Results demonstrate that InstructMining can help select relatively high-quality samples from various instruction-following datasets. Compared to models finetuned on unfiltered datasets, models finetuned on InstructMining selected datasets perform better on 42.5% cases.
PDF100December 15, 2024