ChatPaper.aiChatPaper

LLM이 가르침을 통해 학습할 수 있는가? 예비 연구

Can LLMs Learn by Teaching? A Preliminary Study

June 20, 2024
저자: Xuefei Ning, Zifu Wang, Shiyao Li, Zinan Lin, Peiran Yao, Tianyu Fu, Matthew B. Blaschko, Guohao Dai, Huazhong Yang, Yu Wang
cs.AI

초록

학생 모델을 개선하기 위한 교수법(예: 지식 증류)은 대형 언어 모델(LLM)에서 광범위하게 연구된 방법론입니다. 그러나 인간에게 있어 교수는 학생뿐만 아니라 교사 역시 개선시킵니다. 우리는 다음과 같은 질문을 던집니다: LLM도 가르침을 통해 학습(LbT)할 수 있을까요? 만약 그렇다면, 인간이 생성한 데이터나 더 강력한 모델에만 의존하지 않고도 모델을 지속적으로 발전시킬 가능성을 열 수 있습니다. 본 논문에서는 이 야심 찬 주제에 대한 예비 탐구를 제공합니다. 우리는 LbT 아이디어가 기존 LLM 학습/프롬프트 파이프라인에 통합될 수 있으며 눈에 띄는 개선을 제공할 수 있음을 보여줍니다. 구체적으로, 우리는 인간의 LbT 세 가지 수준을 모방한 세 가지 방법을 설계했습니다: 학생의 피드백 관찰, 피드백으로부터 학습, 반복적 학습. 이는 학습 없이 답변 정확도를 개선하고 미세 조정을 통해 모델의 내재적 능력을 향상시키는 것을 목표로 합니다. 연구 결과는 고무적입니다. 예를 들어, 인간의 LbT와 유사하게, 우리는 다음을 관찰했습니다: (1) LbT는 약한 모델에서 강한 모델로의 일반화를 유도할 수 있습니다: 강력한 모델은 다른 약한 모델을 가르침으로써 스스로를 개선할 수 있습니다; (2) 학생의 다양성이 도움이 될 수 있습니다: 여러 학생을 가르치는 것이 한 명의 학생이나 교사 자신을 가르치는 것보다 더 나을 수 있습니다. 우리는 이 초기 성과가 LbT에 대한 미래 연구와 더 나아가 교육의 고급 기술을 LLM 개선에 더 폭넓게 적용하는 데 영감을 줄 수 있기를 바랍니다. 코드는 https://github.com/imagination-research/lbt에서 확인할 수 있습니다.
English
Teaching to improve student models (e.g., knowledge distillation) is an extensively studied methodology in LLMs. However, for humans, teaching not only improves students but also improves teachers. We ask: Can LLMs also learn by teaching (LbT)? If yes, we can potentially unlock the possibility of continuously advancing the models without solely relying on human-produced data or stronger models. In this paper, we provide a preliminary exploration of this ambitious agenda. We show that LbT ideas can be incorporated into existing LLM training/prompting pipelines and provide noticeable improvements. Specifically, we design three methods, each mimicking one of the three levels of LbT in humans: observing students' feedback, learning from the feedback, and learning iteratively, with the goals of improving answer accuracy without training and improving models' inherent capability with fine-tuning. The findings are encouraging. For example, similar to LbT in human, we see that: (1) LbT can induce weak-to-strong generalization: strong models can improve themselves by teaching other weak models; (2) Diversity in students might help: teaching multiple students could be better than teaching one student or the teacher itself. We hope that this early promise can inspire future research on LbT and more broadly adopting the advanced techniques in education to improve LLMs. The code is available at https://github.com/imagination-research/lbt.

Summary

AI-Generated Summary

PDF202November 29, 2024