TeacherLM: Lehren, wie man fischt, statt den Fisch zu geben – Sprachmodellierung ebenso
TeacherLM: Teaching to Fish Rather Than Giving the Fish, Language Modeling Likewise
October 29, 2023
papers.authors: Nan He, Hanyu Lai, Chenyang Zhao, Zirui Cheng, Junting Pan, Ruoyu Qin, Ruofan Lu, Rui Lu, Yunchen Zhang, Gangming Zhao, Zhaohui Hou, Zhiyuan Huang, Shaoqing Lu, Ding Liang, Mingjie Zhan
cs.AI
papers.abstract
Große Sprachmodelle (LLMs) zeigen beeindruckende Fähigkeiten im Bereich des logischen Denkens und der Datenanreicherung bei verschiedenen NLP-Aufgaben. Doch wie sieht es mit kleinen Modellen aus? In dieser Arbeit stellen wir TeacherLM-7.1B vor, das in der Lage ist, relevante Grundlagen, Gedankenketten und häufige Fehler für die meisten NLP-Beispiele zu annotieren. Dadurch wird die Annotation mehr als nur eine Antwort, sodass andere Modelle lernen können, „warum“ etwas so ist, und nicht nur „was“ der Fall ist. Das TeacherLM-7.1B-Modell erreichte einen Zero-Shot-Score von 52,3 auf MMLU und übertraf damit die meisten Modelle mit über 100 Milliarden Parametern. Noch bemerkenswerter ist seine Fähigkeit zur Datenanreicherung. Basierend auf TeacherLM-7.1B haben wir 58 NLP-Datensätze angereichert und verschiedene Schülermodelle mit unterschiedlichen Parametern aus der OPT- und BLOOM-Serie in einem Multi-Task-Setting trainiert. Die experimentellen Ergebnisse zeigen, dass die von TeacherLM bereitgestellte Datenanreicherung erhebliche Vorteile gebracht hat. Wir werden die TeacherLM-Modellserie und die angereicherten Datensätze als Open-Source veröffentlichen.
English
Large Language Models (LLMs) exhibit impressive reasoning and data
augmentation capabilities in various NLP tasks. However, what about small
models? In this work, we propose TeacherLM-7.1B, capable of annotating relevant
fundamentals, chain of thought, and common mistakes for most NLP samples, which
makes annotation more than just an answer, thus allowing other models to learn
"why" instead of just "what". The TeacherLM-7.1B model achieved a zero-shot
score of 52.3 on MMLU, surpassing most models with over 100B parameters. Even
more remarkable is its data augmentation ability. Based on TeacherLM-7.1B, we
augmented 58 NLP datasets and taught various student models with different
parameters from OPT and BLOOM series in a multi-task setting. The experimental
results indicate that the data augmentation provided by TeacherLM has brought
significant benefits. We will release the TeacherLM series of models and
augmented datasets as open-source.