ChatPaper.aiChatPaper

TeacherLM: Enseñar a pescar en lugar de dar el pez, modelado del lenguaje de manera similar

TeacherLM: Teaching to Fish Rather Than Giving the Fish, Language Modeling Likewise

October 29, 2023
Autores: Nan He, Hanyu Lai, Chenyang Zhao, Zirui Cheng, Junting Pan, Ruoyu Qin, Ruofan Lu, Rui Lu, Yunchen Zhang, Gangming Zhao, Zhaohui Hou, Zhiyuan Huang, Shaoqing Lu, Ding Liang, Mingjie Zhan
cs.AI

Resumen

Los Modelos de Lenguaje de Gran Escala (LLMs) demuestran capacidades impresionantes de razonamiento y aumento de datos en diversas tareas de PLN. Sin embargo, ¿qué ocurre con los modelos pequeños? En este trabajo, proponemos TeacherLM-7.1B, capaz de anotar fundamentos relevantes, cadenas de pensamiento y errores comunes para la mayoría de las muestras de PLN, lo que convierte la anotación en algo más que una simple respuesta, permitiendo así que otros modelos aprendan el "por qué" en lugar de solo el "qué". El modelo TeacherLM-7.1B obtuvo una puntuación zero-shot de 52.3 en MMLU, superando a la mayoría de los modelos con más de 100B parámetros. Aún más notable es su capacidad de aumento de datos. Basándonos en TeacherLM-7.1B, aumentamos 58 conjuntos de datos de PLN y entrenamos varios modelos estudiante con diferentes parámetros de las series OPT y BLOOM en un entorno de multitarea. Los resultados experimentales indican que el aumento de datos proporcionado por TeacherLM ha aportado beneficios significativos. Liberaremos la serie de modelos TeacherLM y los conjuntos de datos aumentados como código abierto.
English
Large Language Models (LLMs) exhibit impressive reasoning and data augmentation capabilities in various NLP tasks. However, what about small models? In this work, we propose TeacherLM-7.1B, capable of annotating relevant fundamentals, chain of thought, and common mistakes for most NLP samples, which makes annotation more than just an answer, thus allowing other models to learn "why" instead of just "what". The TeacherLM-7.1B model achieved a zero-shot score of 52.3 on MMLU, surpassing most models with over 100B parameters. Even more remarkable is its data augmentation ability. Based on TeacherLM-7.1B, we augmented 58 NLP datasets and taught various student models with different parameters from OPT and BLOOM series in a multi-task setting. The experimental results indicate that the data augmentation provided by TeacherLM has brought significant benefits. We will release the TeacherLM series of models and augmented datasets as open-source.
PDF93December 15, 2024