ChatPaper.aiChatPaper

Kunnen LLM's leren door te onderwijzen? Een voorlopige studie

Can LLMs Learn by Teaching? A Preliminary Study

June 20, 2024
Auteurs: Xuefei Ning, Zifu Wang, Shiyao Li, Zinan Lin, Peiran Yao, Tianyu Fu, Matthew B. Blaschko, Guohao Dai, Huazhong Yang, Yu Wang
cs.AI

Samenvatting

Het onderwijzen om studentmodellen te verbeteren (bijvoorbeeld kennisdistillatie) is een uitgebreid bestudeerde methodologie in grote taalmodellen (LLMs). Echter, voor mensen verbetert onderwijs niet alleen de studenten, maar ook de leraren. Wij vragen: Kunnen LLMs ook leren door te onderwijzen (LbT)? Als dat zo is, kunnen we mogelijk de mogelijkheid ontgrendelen om de modellen continu te verbeteren zonder uitsluitend te vertrouwen op door mensen geproduceerde data of sterkere modellen. In dit artikel bieden we een eerste verkenning van deze ambitieuze agenda. We laten zien dat LbT-ideeën kunnen worden geïntegreerd in bestaande LLM-trainings-/prompting-pipelines en merkbare verbeteringen bieden. Specifiek ontwerpen we drie methoden, elk gericht op het nabootsen van een van de drie niveaus van LbT bij mensen: het observeren van feedback van studenten, leren van de feedback, en iteratief leren, met als doel de antwoordnauwkeurigheid te verbeteren zonder training en de inherente capaciteit van modellen te verbeteren met fine-tuning. De bevindingen zijn bemoedigend. Bijvoorbeeld, vergelijkbaar met LbT bij mensen, zien we dat: (1) LbT zwak-naar-sterk generalisatie kan induceren: sterke modellen kunnen zichzelf verbeteren door andere zwakke modellen te onderwijzen; (2) Diversiteit in studenten kan helpen: het onderwijzen van meerdere studenten kan beter zijn dan het onderwijzen van één student of de leraar zelf. We hopen dat deze vroege belofte toekomstig onderzoek naar LbT kan inspireren en bredere adoptie van geavanceerde technieken in het onderwijs om LLMs te verbeteren. De code is beschikbaar op https://github.com/imagination-research/lbt.
English
Teaching to improve student models (e.g., knowledge distillation) is an extensively studied methodology in LLMs. However, for humans, teaching not only improves students but also improves teachers. We ask: Can LLMs also learn by teaching (LbT)? If yes, we can potentially unlock the possibility of continuously advancing the models without solely relying on human-produced data or stronger models. In this paper, we provide a preliminary exploration of this ambitious agenda. We show that LbT ideas can be incorporated into existing LLM training/prompting pipelines and provide noticeable improvements. Specifically, we design three methods, each mimicking one of the three levels of LbT in humans: observing students' feedback, learning from the feedback, and learning iteratively, with the goals of improving answer accuracy without training and improving models' inherent capability with fine-tuning. The findings are encouraging. For example, similar to LbT in human, we see that: (1) LbT can induce weak-to-strong generalization: strong models can improve themselves by teaching other weak models; (2) Diversity in students might help: teaching multiple students could be better than teaching one student or the teacher itself. We hope that this early promise can inspire future research on LbT and more broadly adopting the advanced techniques in education to improve LLMs. The code is available at https://github.com/imagination-research/lbt.
PDF212November 29, 2024