ChatPaper.aiChatPaper

TeacherLM: Учить ловить рыбу, а не давать рыбу — аналогично в моделировании языка

TeacherLM: Teaching to Fish Rather Than Giving the Fish, Language Modeling Likewise

October 29, 2023
Авторы: Nan He, Hanyu Lai, Chenyang Zhao, Zirui Cheng, Junting Pan, Ruoyu Qin, Ruofan Lu, Rui Lu, Yunchen Zhang, Gangming Zhao, Zhaohui Hou, Zhiyuan Huang, Shaoqing Lu, Ding Liang, Mingjie Zhan
cs.AI

Аннотация

Крупные языковые модели (LLM) демонстрируют впечатляющие способности к рассуждению и расширению данных в различных задачах обработки естественного языка (NLP). Однако как обстоят дела с небольшими моделями? В данной работе мы представляем TeacherLM-7.1B, способную аннотировать ключевые основы, цепочку рассуждений и типичные ошибки для большинства NLP-примеров, что делает аннотацию не просто ответом, а позволяет другим моделям изучать "почему", а не только "что". Модель TeacherLM-7.1B достигла нулевого результата (zero-shot) в 52.3 балла на тесте MMLU, превзойдя большинство моделей с более чем 100 миллиардами параметров. Ещё более примечательна её способность к расширению данных. На основе TeacherLM-7.1B мы расширили 58 NLP-датасетов и обучили различные модели-ученики с разным количеством параметров из серий OPT и BLOOM в условиях многозадачного обучения. Результаты экспериментов показывают, что расширение данных, предоставленное TeacherLM, принесло значительные преимущества. Мы выпустим серию моделей TeacherLM и расширенные датасеты в открытый доступ.
English
Large Language Models (LLMs) exhibit impressive reasoning and data augmentation capabilities in various NLP tasks. However, what about small models? In this work, we propose TeacherLM-7.1B, capable of annotating relevant fundamentals, chain of thought, and common mistakes for most NLP samples, which makes annotation more than just an answer, thus allowing other models to learn "why" instead of just "what". The TeacherLM-7.1B model achieved a zero-shot score of 52.3 on MMLU, surpassing most models with over 100B parameters. Even more remarkable is its data augmentation ability. Based on TeacherLM-7.1B, we augmented 58 NLP datasets and taught various student models with different parameters from OPT and BLOOM series in a multi-task setting. The experimental results indicate that the data augmentation provided by TeacherLM has brought significant benefits. We will release the TeacherLM series of models and augmented datasets as open-source.
PDF93December 15, 2024