Minería de Instrucciones: Selección de Datos de Instrucción de Alta Calidad para Modelos de Lenguaje a Gran Escala
Instruction Mining: High-Quality Instruction Data Selection for Large Language Models
July 12, 2023
Autores: Yihan Cao, Yanbin Kang, Lichao Sun
cs.AI
Resumen
Los modelos de lenguaje de gran escala suelen pasar por dos etapas de entrenamiento: el preentrenamiento y el ajuste fino. A pesar de que el preentrenamiento a gran escala dota al modelo de una gran capacidad para generar respuestas en lenguaje natural, estos modelos preentrenados aún pueden fallar en ocasiones al comprender las instrucciones humanas. Para mejorar la capacidad de los modelos de lenguaje para interpretar y responder a instrucciones, el ajuste fino con instrucciones ha surgido como un método crítico en este ámbito. Estudios recientes han encontrado que los modelos de lenguaje de gran escala pueden ajustarse para desempeñarse bien incluso con una pequeña cantidad de datos de alta calidad que sigan instrucciones. Sin embargo, la selección de conjuntos de datos de alta calidad para ajustar modelos de lenguaje aún carece de directrices claras a seguir. En este artículo, proponemos InstructMining, una regla lineal para evaluar la calidad de los datos que siguen instrucciones. Formulamos InstructMining utilizando indicadores específicos de lenguaje natural. Para investigar la relación entre la calidad de los datos y estos indicadores, realizamos además extensos experimentos de ajuste fino. Los resultados de los experimentos se aplican luego para estimar los parámetros en InstructMining. Para investigar más a fondo su rendimiento, utilizamos InstructMining para seleccionar datos de alta calidad de conjuntos de datos no vistos. Los resultados demuestran que InstructMining puede ayudar a seleccionar muestras relativamente de alta calidad de varios conjuntos de datos que siguen instrucciones. En comparación con los modelos ajustados en conjuntos de datos no filtrados, los modelos ajustados en conjuntos de datos seleccionados por InstructMining se desempeñan mejor en el 42.5% de los casos.
English
Large language models typically undergo two training stages, pretraining and
finetuning. Despite that large-scale pretraining endows the model with strong
capabilities to generate natural language responses, these pretrained models
can still fail to understand human instructions at times. To enhance language
models' ability of interpreting and responding to instructions, instruction
finetuning has emerged as a critical method in this area. Recent studies found
that large language models can be finetuned to perform well even with a small
amount of high-quality instruction-following data. However, the selection of
high-quality datasets for finetuning language models still lacks clear
guidelines to follow. In this paper, we propose InstructMining, a linear rule
for evaluating instruction-following data quality. We formulate InstructMining
using specific natural language indicators. To investigate the relationship
between data quality and these indicators, we further conduct extensive
finetuning experiments. The experiment results are then applied to estimating
parameters in InstructMining. To further investigate its performance, we use
InstructMining to select high-quality data from unseen datasets. Results
demonstrate that InstructMining can help select relatively high-quality samples
from various instruction-following datasets. Compared to models finetuned on
unfiltered datasets, models finetuned on InstructMining selected datasets
perform better on 42.5% cases.