ChatPaper.aiChatPaper

TeacherLM: 물고기를 주는 대신 물고기 잡는 법을 가르치듯, 언어 모델링도 마찬가지로

TeacherLM: Teaching to Fish Rather Than Giving the Fish, Language Modeling Likewise

October 29, 2023
저자: Nan He, Hanyu Lai, Chenyang Zhao, Zirui Cheng, Junting Pan, Ruoyu Qin, Ruofan Lu, Rui Lu, Yunchen Zhang, Gangming Zhao, Zhaohui Hou, Zhiyuan Huang, Shaoqing Lu, Ding Liang, Mingjie Zhan
cs.AI

초록

대형 언어 모델(LLMs)은 다양한 NLP 작업에서 인상적인 추론 및 데이터 증강 능력을 보여줍니다. 하지만 소형 모델은 어떨까요? 본 연구에서는 대부분의 NLP 샘플에 대해 관련 기초 개념, 사고 과정, 그리고 흔히 발생하는 오류를 주석으로 달 수 있는 TeacherLM-7.1B를 제안합니다. 이를 통해 주석이 단순히 답변을 제공하는 것을 넘어, 다른 모델들이 "무엇"이 아니라 "왜"를 학습할 수 있도록 합니다. TeacherLM-7.1B 모델은 MMLU에서 52.3의 제로샷 점수를 달성하며, 100B 이상의 파라미터를 가진 대부분의 모델을 능가했습니다. 더욱 주목할 만한 것은 이 모델의 데이터 증강 능력입니다. TeacherLM-7.1B를 기반으로 58개의 NLP 데이터셋을 증강하고, OPT 및 BLOOM 시리즈의 다양한 파라미터 크기를 가진 학생 모델들을 멀티태스크 설정에서 학습시켰습니다. 실험 결과, TeacherLM이 제공한 데이터 증강은 상당한 이점을 가져왔음을 보여줍니다. 우리는 TeacherLM 시리즈 모델과 증강된 데이터셋을 오픈소스로 공개할 예정입니다.
English
Large Language Models (LLMs) exhibit impressive reasoning and data augmentation capabilities in various NLP tasks. However, what about small models? In this work, we propose TeacherLM-7.1B, capable of annotating relevant fundamentals, chain of thought, and common mistakes for most NLP samples, which makes annotation more than just an answer, thus allowing other models to learn "why" instead of just "what". The TeacherLM-7.1B model achieved a zero-shot score of 52.3 on MMLU, surpassing most models with over 100B parameters. Even more remarkable is its data augmentation ability. Based on TeacherLM-7.1B, we augmented 58 NLP datasets and taught various student models with different parameters from OPT and BLOOM series in a multi-task setting. The experimental results indicate that the data augmentation provided by TeacherLM has brought significant benefits. We will release the TeacherLM series of models and augmented datasets as open-source.
PDF93December 15, 2024