Explorando la consistencia de formato para el ajuste mediante instrucciones

Resumen

El ajuste por instrucciones ha surgido como un enfoque prometedor para mejorar los modelos de lenguaje grandes en el seguimiento de instrucciones humanas. Se ha demostrado que aumentar la diversidad y el número de instrucciones en los datos de entrenamiento puede mejorar consistentemente el rendimiento de generalización, lo que facilita un esfuerzo reciente para recopilar diversas instrucciones e integrar conjuntos de datos existentes de ajuste por instrucciones en colecciones más grandes. Sin embargo, diferentes usuarios tienen formas únicas de expresar instrucciones, y a menudo existen variaciones entre los distintos conjuntos de datos en los estilos y formatos de las instrucciones, es decir, inconsistencia de formato. En este trabajo, estudiamos cómo la inconsistencia de formato puede afectar el rendimiento del ajuste por instrucciones. Proponemos un marco llamado "Ajuste por Instrucciones Unificado" (UIT, por sus siglas en inglés), que utiliza las API de OpenAI para la transferencia automática de formato entre diferentes conjuntos de datos de ajuste por instrucciones. Demostramos que UIT mejora con éxito el rendimiento de generalización en instrucciones no vistas, lo que resalta la importancia de la consistencia de formato para el ajuste por instrucciones. Para hacer que el marco UIT sea más práctico, proponemos además un novedoso método de eliminación de ruido basado en perplejidad para reducir el ruido de la transferencia automática de formato. También entrenamos un modelo más pequeño y fuera de línea que logra una capacidad de transferencia de formato comparable a las API de OpenAI, con el fin de reducir costos en la práctica.

English

Instruction tuning has emerged as a promising approach to enhancing large language models in following human instructions. It is shown that increasing the diversity and number of instructions in the training data can consistently enhance generalization performance, which facilitates a recent endeavor to collect various instructions and integrate existing instruction tuning datasets into larger collections. However, different users have their unique ways of expressing instructions, and there often exist variations across different datasets in the instruction styles and formats, i.e., format inconsistency. In this work, we study how format inconsistency may impact the performance of instruction tuning. We propose a framework called "Unified Instruction Tuning" (UIT), which calls OpenAI APIs for automatic format transfer among different instruction tuning datasets. We show that UIT successfully improves the generalization performance on unseen instructions, which highlights the importance of format consistency for instruction tuning. To make the UIT framework more practical, we further propose a novel perplexity-based denoising method to reduce the noise of automatic format transfer. We also train a smaller offline model that achieves comparable format transfer capability than OpenAI APIs to reduce costs in practice.

Explorando la consistencia de formato para el ajuste mediante instrucciones

Exploring Format Consistency for Instruction Tuning

Resumen

Support