TeacherLM: Insegnare a Pescare Piuttosto che Dare il Pesce, Modellazione del Linguaggio Allo Stesso Modo

Abstract

I Large Language Model (LLM) dimostrano capacità impressionanti di ragionamento e di aumento dei dati in vari compiti di NLP. Tuttavia, cosa possiamo dire dei modelli più piccoli? In questo lavoro, proponiamo TeacherLM-7.1B, in grado di annotare i fondamenti rilevanti, la catena di pensiero e gli errori comuni per la maggior parte dei campioni di NLP, trasformando l'annotazione in qualcosa di più di una semplice risposta e permettendo così ad altri modelli di apprendere il "perché" oltre al "cosa". Il modello TeacherLM-7.1B ha ottenuto un punteggio zero-shot di 52.3 su MMLU, superando la maggior parte dei modelli con oltre 100 miliardi di parametri. Ancora più notevole è la sua capacità di aumento dei dati. Basandoci su TeacherLM-7.1B, abbiamo aumentato 58 dataset di NLP e addestrato vari modelli studente con diversi parametri delle serie OPT e BLOOM in un contesto multi-task. I risultati sperimentali indicano che l'aumento dei dati fornito da TeacherLM ha portato benefici significativi. Rilasceremo la serie di modelli TeacherLM e i dataset aumentati come open-source.

English

Large Language Models (LLMs) exhibit impressive reasoning and data augmentation capabilities in various NLP tasks. However, what about small models? In this work, we propose TeacherLM-7.1B, capable of annotating relevant fundamentals, chain of thought, and common mistakes for most NLP samples, which makes annotation more than just an answer, thus allowing other models to learn "why" instead of just "what". The TeacherLM-7.1B model achieved a zero-shot score of 52.3 on MMLU, surpassing most models with over 100B parameters. Even more remarkable is its data augmentation ability. Based on TeacherLM-7.1B, we augmented 58 NLP datasets and taught various student models with different parameters from OPT and BLOOM series in a multi-task setting. The experimental results indicate that the data augmentation provided by TeacherLM has brought significant benefits. We will release the TeacherLM series of models and augmented datasets as open-source.

TeacherLM: Insegnare a Pescare Piuttosto che Dare il Pesce, Modellazione del Linguaggio Allo Stesso Modo

TeacherLM: Teaching to Fish Rather Than Giving the Fish, Language Modeling Likewise

Abstract

Support