Могут ли LLM-модели учиться, обучая? Предварительное исследование.
Can LLMs Learn by Teaching? A Preliminary Study
June 20, 2024
Авторы: Xuefei Ning, Zifu Wang, Shiyao Li, Zinan Lin, Peiran Yao, Tianyu Fu, Matthew B. Blaschko, Guohao Dai, Huazhong Yang, Yu Wang
cs.AI
Аннотация
Обучение для улучшения моделей студентов (например, дистилляция знаний) является широко изучаемой методологией в LLMs. Однако для людей обучение улучшает не только студентов, но и учителей. Мы спрашиваем: могут ли LLMs также учиться через обучение (LbT)? Если да, мы потенциально можем открыть возможность непрерывного развития моделей, не полагаясь исключительно на данные, созданные людьми, или более сильные модели. В этой статье мы представляем предварительное исследование этой амбициозной задачи. Мы показываем, что идеи LbT могут быть интегрированы в существующие конвейеры обучения/подсказок LLM и приводят к заметным улучшениям. Конкретно, мы разрабатываем три метода, каждый из которых имитирует один из трех уровней LbT у людей: наблюдение за обратной связью студентов, обучение на основе обратной связи и итеративное обучение, с целью улучшения точности ответов без обучения и улучшения врожденной способности моделей с помощью тонкой настройки. Полученные результаты обнадеживающи. Например, аналогично LbT у человека мы видим, что: (1) LbT может способствовать слабому-к-сильному обобщению: сильные модели могут улучшить себя, обучая другие слабые модели; (2) Разнообразие среди студентов может быть полезным: обучение нескольких студентов может быть лучше, чем обучение одного студента или самого учителя. Мы надеемся, что это раннее обещание может вдохновить будущие исследования в области LbT и более широко применить передовые техники в образовании для улучшения LLMs. Код доступен по ссылке https://github.com/imagination-research/lbt.
English
Teaching to improve student models (e.g., knowledge distillation) is an
extensively studied methodology in LLMs. However, for humans, teaching not only
improves students but also improves teachers. We ask: Can LLMs also learn by
teaching (LbT)? If yes, we can potentially unlock the possibility of
continuously advancing the models without solely relying on human-produced data
or stronger models. In this paper, we provide a preliminary exploration of this
ambitious agenda. We show that LbT ideas can be incorporated into existing LLM
training/prompting pipelines and provide noticeable improvements. Specifically,
we design three methods, each mimicking one of the three levels of LbT in
humans: observing students' feedback, learning from the feedback, and learning
iteratively, with the goals of improving answer accuracy without training and
improving models' inherent capability with fine-tuning. The findings are
encouraging. For example, similar to LbT in human, we see that: (1) LbT can
induce weak-to-strong generalization: strong models can improve themselves by
teaching other weak models; (2) Diversity in students might help: teaching
multiple students could be better than teaching one student or the teacher
itself. We hope that this early promise can inspire future research on LbT and
more broadly adopting the advanced techniques in education to improve LLMs. The
code is available at https://github.com/imagination-research/lbt.Summary
AI-Generated Summary