ChatPaper.aiChatPaper

Los modelos de lenguaje más pequeños son mejores evolucionadores de instrucciones.

Smaller Language Models Are Better Instruction Evolvers

December 15, 2024
Autores: Tingfeng Hui, Lulu Zhao, Guanting Dong, Yaqi Zhang, Hua Zhou, Sen Su
cs.AI

Resumen

La optimización de instrucciones ha sido ampliamente utilizada para desatar el potencial completo de los grandes modelos de lenguaje. Especialmente, las instrucciones complejas y diversas son de gran importancia, ya que pueden alinear eficazmente los modelos con diversas tareas posteriores. Sin embargo, los enfoques actuales para construir instrucciones a gran escala favorecen predominantemente a modelos potentes como GPT-4 o aquellos con más de 70 mil millones de parámetros, bajo la presunción empírica de que tales modelos de lenguaje más grandes (LLMs) poseen inherentemente capacidades mejoradas. En este estudio, cuestionamos esta suposición prevalente y realizamos una exploración exhaustiva del potencial de modelos de lenguaje más pequeños (SLMs) en el contexto de la evolución de instrucciones. Experimentos extensos en tres escenarios de evolución de instrucciones revelan que los modelos de lenguaje más pequeños (SLMs) pueden sintetizar instrucciones más efectivas que los LLMs. Un análisis adicional demuestra que los SLMs poseen un espacio de salida más amplio durante la evolución de instrucciones, lo que resulta en variantes más complejas y diversas. También observamos que las métricas existentes no se centran en el impacto de las instrucciones. Por lo tanto, proponemos el IFD Consciente de la Complejidad de la Instrucción (IC-IFD), que introduce la complejidad de la instrucción en la puntuación IFD original para evaluar la efectividad de los datos de instrucción de manera más precisa. Nuestro código fuente está disponible en: https://github.com/HypherX/Evolution-Analysis.
English
Instruction tuning has been widely used to unleash the complete potential of large language models. Notably, complex and diverse instructions are of significant importance as they can effectively align models with various downstream tasks. However, current approaches to constructing large-scale instructions predominantly favour powerful models such as GPT-4 or those with over 70 billion parameters, under the empirical presumption that such larger language models (LLMs) inherently possess enhanced capabilities. In this study, we question this prevalent assumption and conduct an in-depth exploration into the potential of smaller language models (SLMs) in the context of instruction evolution. Extensive experiments across three scenarios of instruction evolution reveal that smaller language models (SLMs) can synthesize more effective instructions than LLMs. Further analysis demonstrates that SLMs possess a broader output space during instruction evolution, resulting in more complex and diverse variants. We also observe that the existing metrics fail to focus on the impact of the instructions. Thus, we propose Instruction Complex-Aware IFD (IC-IFD), which introduces instruction complexity in the original IFD score to evaluate the effectiveness of instruction data more accurately. Our source code is available at: https://github.com/HypherX/Evolution-Analysis{https://github.com/HypherX/Evolution-Analysis}

Summary

AI-Generated Summary

PDF292December 17, 2024