Democratisering van Redeneervermogen: Maatwerk Leren van Grote Taalmodellen
Democratizing Reasoning Ability: Tailored Learning from Large Language Model
October 20, 2023
Auteurs: Zhaoyang Wang, Shaohan Huang, Yuxuan Liu, Jiahai Wang, Minghui Song, Zihan Zhang, Haizhen Huang, Furu Wei, Weiwei Deng, Feng Sun, Qi Zhang
cs.AI
Samenvatting
Grote taalmodellen (LLMs) vertonen indrukwekkende emergente vaardigheden in natuurlijke taalverwerking, maar hun democratisering wordt belemmerd door de enorme rekenvereisten en gesloten aard. Recent onderzoek naar het bevorderen van open-source kleinere LM's door kennis te destilleren uit black-box LLMs heeft veelbelovende resultaten opgeleverd in het vermogen om instructies op te volgen. Het redeneervermogen, dat uitdagender is om te ontwikkelen, wordt echter relatief weinig onderzocht. In dit artikel stellen we een op maat gemaakt leerbenadering voor om dit redeneervermogen te destilleren naar kleinere LM's om de democratisering van het exclusieve redeneervermogen te bevorderen. In tegenstelling tot het louter gebruiken van een LLM als data-annotator, benutten we het potentieel van een LLM als redeneerleraar door een interactief leerparadigma met meerdere rondes op te bouwen. Dit paradigma stelt de student in staat om zijn tekortkomingen bloot te leggen aan de black-box leraar, die vervolgens op maat gemaakte trainingsdata kan aanbieden. Verder stellen we zelfreflectie-leren voor om het redeneerpotentieel van de kleinere LM te benutten, waarbij de student wordt gemotiveerd om te leren van zelfgemaakte fouten. Het leren van zelfreflectie en de LLM zijn allemaal afgestemd op de leerstatus van de student, dankzij de naadloze integratie met het leerparadigma met meerdere rondes. Uitgebreide experimenten en analyses op wiskundige en gezondverstand-redeneertaken demonstreren de effectiviteit van onze methode. De code zal beschikbaar zijn op https://github.com/Raibows/Learn-to-Reason.
English
Large language models (LLMs) exhibit impressive emergent abilities in natural
language processing, but their democratization is hindered due to huge
computation requirements and closed-source nature. Recent research on advancing
open-source smaller LMs by distilling knowledge from black-box LLMs has
obtained promising results in the instruction-following ability. However, the
reasoning ability which is more challenging to foster, is relatively rarely
explored. In this paper, we propose a tailored learning approach to distill
such reasoning ability to smaller LMs to facilitate the democratization of the
exclusive reasoning ability. In contrast to merely employing LLM as a data
annotator, we exploit the potential of LLM as a reasoning teacher by building
an interactive multi-round learning paradigm. This paradigm enables the student
to expose its deficiencies to the black-box teacher who then can provide
customized training data in return. Further, to exploit the reasoning potential
of the smaller LM, we propose self-reflection learning to motivate the student
to learn from self-made mistakes. The learning from self-reflection and LLM are
all tailored to the student's learning status, thanks to the seamless
integration with the multi-round learning paradigm. Comprehensive experiments
and analysis on mathematical and commonsense reasoning tasks demonstrate the
effectiveness of our method. The code will be available at
https://github.com/Raibows/Learn-to-Reason.