Les grands modèles de langage peuvent-ils apprendre en enseignant ? Une étude préliminaire
Can LLMs Learn by Teaching? A Preliminary Study
June 20, 2024
Auteurs: Xuefei Ning, Zifu Wang, Shiyao Li, Zinan Lin, Peiran Yao, Tianyu Fu, Matthew B. Blaschko, Guohao Dai, Huazhong Yang, Yu Wang
cs.AI
Résumé
L'enseignement pour améliorer les modèles étudiants (par exemple, la distillation de connaissances) est une méthodologie largement étudiée dans les LLM (modèles de langage de grande taille). Cependant, pour les humains, l'enseignement n'améliore pas seulement les étudiants, mais aussi les enseignants. Nous posons la question : Les LLM peuvent-ils également apprendre en enseignant (LbT, Learning by Teaching) ? Si oui, nous pourrions potentiellement débloquer la possibilité de faire progresser continuellement les modèles sans dépendre uniquement de données produites par des humains ou de modèles plus puissants. Dans cet article, nous proposons une exploration préliminaire de cet agenda ambitieux. Nous montrons que les idées de LbT peuvent être intégrées dans les pipelines existants d'entraînement/incitation des LLM et apporter des améliorations notables. Plus précisément, nous concevons trois méthodes, chacune imitant l'un des trois niveaux de LbT chez les humains : observer les retours des étudiants, apprendre de ces retours, et apprendre de manière itérative, avec pour objectifs d'améliorer la précision des réponses sans entraînement et d'améliorer les capacités intrinsèques des modèles avec un ajustement fin. Les résultats sont encourageants. Par exemple, de manière similaire au LbT chez les humains, nous observons que : (1) Le LbT peut induire une généralisation de faible à fort : les modèles forts peuvent s'améliorer eux-mêmes en enseignant à d'autres modèles faibles ; (2) La diversité parmi les étudiants pourrait aider : enseigner à plusieurs étudiants pourrait être plus bénéfique que d'enseigner à un seul étudiant ou à l'enseignant lui-même. Nous espérons que ces premiers résultats prometteurs pourront inspirer des recherches futures sur le LbT et une adoption plus large des techniques avancées en éducation pour améliorer les LLM. Le code est disponible à l'adresse suivante : https://github.com/imagination-research/lbt.
English
Teaching to improve student models (e.g., knowledge distillation) is an
extensively studied methodology in LLMs. However, for humans, teaching not only
improves students but also improves teachers. We ask: Can LLMs also learn by
teaching (LbT)? If yes, we can potentially unlock the possibility of
continuously advancing the models without solely relying on human-produced data
or stronger models. In this paper, we provide a preliminary exploration of this
ambitious agenda. We show that LbT ideas can be incorporated into existing LLM
training/prompting pipelines and provide noticeable improvements. Specifically,
we design three methods, each mimicking one of the three levels of LbT in
humans: observing students' feedback, learning from the feedback, and learning
iteratively, with the goals of improving answer accuracy without training and
improving models' inherent capability with fine-tuning. The findings are
encouraging. For example, similar to LbT in human, we see that: (1) LbT can
induce weak-to-strong generalization: strong models can improve themselves by
teaching other weak models; (2) Diversity in students might help: teaching
multiple students could be better than teaching one student or the teacher
itself. We hope that this early promise can inspire future research on LbT and
more broadly adopting the advanced techniques in education to improve LLMs. The
code is available at https://github.com/imagination-research/lbt.Summary
AI-Generated Summary