Explorando la consistencia de formato para el ajuste mediante instrucciones
Exploring Format Consistency for Instruction Tuning
July 28, 2023
Autores: Shihao Liang, Kunlun Zhu, Runchu Tian, Yujia Qin, Huadong Wang, Xin Cong, Zhiyuan Liu, Xiaojiang Liu, Maosong Sun
cs.AI
Resumen
El ajuste por instrucciones ha surgido como un enfoque prometedor para mejorar los modelos de lenguaje grandes en el seguimiento de instrucciones humanas. Se ha demostrado que aumentar la diversidad y el número de instrucciones en los datos de entrenamiento puede mejorar consistentemente el rendimiento de generalización, lo que facilita un esfuerzo reciente para recopilar diversas instrucciones e integrar conjuntos de datos existentes de ajuste por instrucciones en colecciones más grandes. Sin embargo, diferentes usuarios tienen formas únicas de expresar instrucciones, y a menudo existen variaciones entre los distintos conjuntos de datos en los estilos y formatos de las instrucciones, es decir, inconsistencia de formato. En este trabajo, estudiamos cómo la inconsistencia de formato puede afectar el rendimiento del ajuste por instrucciones. Proponemos un marco llamado "Ajuste por Instrucciones Unificado" (UIT, por sus siglas en inglés), que utiliza las API de OpenAI para la transferencia automática de formato entre diferentes conjuntos de datos de ajuste por instrucciones. Demostramos que UIT mejora con éxito el rendimiento de generalización en instrucciones no vistas, lo que resalta la importancia de la consistencia de formato para el ajuste por instrucciones. Para hacer que el marco UIT sea más práctico, proponemos además un novedoso método de eliminación de ruido basado en perplejidad para reducir el ruido de la transferencia automática de formato. También entrenamos un modelo más pequeño y fuera de línea que logra una capacidad de transferencia de formato comparable a las API de OpenAI, con el fin de reducir costos en la práctica.
English
Instruction tuning has emerged as a promising approach to enhancing large
language models in following human instructions. It is shown that increasing
the diversity and number of instructions in the training data can consistently
enhance generalization performance, which facilitates a recent endeavor to
collect various instructions and integrate existing instruction tuning datasets
into larger collections. However, different users have their unique ways of
expressing instructions, and there often exist variations across different
datasets in the instruction styles and formats, i.e., format inconsistency. In
this work, we study how format inconsistency may impact the performance of
instruction tuning. We propose a framework called "Unified Instruction Tuning"
(UIT), which calls OpenAI APIs for automatic format transfer among different
instruction tuning datasets. We show that UIT successfully improves the
generalization performance on unseen instructions, which highlights the
importance of format consistency for instruction tuning. To make the UIT
framework more practical, we further propose a novel perplexity-based denoising
method to reduce the noise of automatic format transfer. We also train a
smaller offline model that achieves comparable format transfer capability than
OpenAI APIs to reduce costs in practice.