TeacherLM: Insegnare a Pescare Piuttosto che Dare il Pesce, Modellazione del Linguaggio Allo Stesso Modo
TeacherLM: Teaching to Fish Rather Than Giving the Fish, Language Modeling Likewise
October 29, 2023
Autori: Nan He, Hanyu Lai, Chenyang Zhao, Zirui Cheng, Junting Pan, Ruoyu Qin, Ruofan Lu, Rui Lu, Yunchen Zhang, Gangming Zhao, Zhaohui Hou, Zhiyuan Huang, Shaoqing Lu, Ding Liang, Mingjie Zhan
cs.AI
Abstract
I Large Language Model (LLM) dimostrano capacità impressionanti di ragionamento e di aumento dei dati in vari compiti di NLP. Tuttavia, cosa possiamo dire dei modelli più piccoli? In questo lavoro, proponiamo TeacherLM-7.1B, in grado di annotare i fondamenti rilevanti, la catena di pensiero e gli errori comuni per la maggior parte dei campioni di NLP, trasformando l'annotazione in qualcosa di più di una semplice risposta e permettendo così ad altri modelli di apprendere il "perché" oltre al "cosa". Il modello TeacherLM-7.1B ha ottenuto un punteggio zero-shot di 52.3 su MMLU, superando la maggior parte dei modelli con oltre 100 miliardi di parametri. Ancora più notevole è la sua capacità di aumento dei dati. Basandoci su TeacherLM-7.1B, abbiamo aumentato 58 dataset di NLP e addestrato vari modelli studente con diversi parametri delle serie OPT e BLOOM in un contesto multi-task. I risultati sperimentali indicano che l'aumento dei dati fornito da TeacherLM ha portato benefici significativi. Rilasceremo la serie di modelli TeacherLM e i dataset aumentati come open-source.
English
Large Language Models (LLMs) exhibit impressive reasoning and data
augmentation capabilities in various NLP tasks. However, what about small
models? In this work, we propose TeacherLM-7.1B, capable of annotating relevant
fundamentals, chain of thought, and common mistakes for most NLP samples, which
makes annotation more than just an answer, thus allowing other models to learn
"why" instead of just "what". The TeacherLM-7.1B model achieved a zero-shot
score of 52.3 on MMLU, surpassing most models with over 100B parameters. Even
more remarkable is its data augmentation ability. Based on TeacherLM-7.1B, we
augmented 58 NLP datasets and taught various student models with different
parameters from OPT and BLOOM series in a multi-task setting. The experimental
results indicate that the data augmentation provided by TeacherLM has brought
significant benefits. We will release the TeacherLM series of models and
augmented datasets as open-source.