Demokratisierung der Schlussfolgerungsfähigkeit: Maßgeschneidertes Lernen mit großen Sprachmodellen
Democratizing Reasoning Ability: Tailored Learning from Large Language Model
October 20, 2023
Autoren: Zhaoyang Wang, Shaohan Huang, Yuxuan Liu, Jiahai Wang, Minghui Song, Zihan Zhang, Haizhen Huang, Furu Wei, Weiwei Deng, Feng Sun, Qi Zhang
cs.AI
Zusammenfassung
Große Sprachmodelle (LLMs) zeigen beeindruckende emergente Fähigkeiten in der natürlichen Sprachverarbeitung, doch ihre Demokratisierung wird durch enorme Rechenanforderungen und ihren Closed-Source-Charakter behindert. Aktuelle Forschungen zur Weiterentwicklung von kleineren Open-Source-LMs durch Wissensdestillation aus Black-Box-LLMs haben vielversprechende Ergebnisse in Bezug auf die Fähigkeit zur Befolgung von Anweisungen erzielt. Die Fähigkeit zum logischen Schlussfolgern, die schwieriger zu fördern ist, wurde jedoch relativ selten untersucht. In diesem Artikel schlagen wir einen maßgeschneiderten Lernansatz vor, um diese Fähigkeit zum logischen Schlussfolgern auf kleinere LMs zu übertragen und so die Demokratisierung dieser exklusiven Fähigkeit zu fördern. Im Gegensatz zur bloßen Verwendung des LLM als Datenannotator nutzen wir das Potenzial des LLM als Lehrkraft für logisches Schlussfolgern, indem wir ein interaktives, mehrstufiges Lernparadigma entwickeln. Dieses Paradigma ermöglicht es dem Schüler, seine Defizite dem Black-Box-Lehrer aufzuzeigen, der dann maßgeschneiderte Trainingsdaten bereitstellen kann. Darüber hinaus schlagen wir ein Selbstreflexionslernen vor, um das Potenzial des kleineren LM für logisches Schlussfolgern zu nutzen und den Schüler dazu zu motivieren, aus selbstgemachten Fehlern zu lernen. Das Lernen durch Selbstreflexion und das LLM werden beide auf den Lernstatus des Schülers zugeschnitten, was durch die nahtlose Integration in das mehrstufige Lernparadigma ermöglicht wird. Umfassende Experimente und Analysen zu mathematischen und alltagslogischen Schlussfolgerungsaufgaben demonstrieren die Wirksamkeit unserer Methode. Der Code wird unter https://github.com/Raibows/Learn-to-Reason verfügbar sein.
English
Large language models (LLMs) exhibit impressive emergent abilities in natural
language processing, but their democratization is hindered due to huge
computation requirements and closed-source nature. Recent research on advancing
open-source smaller LMs by distilling knowledge from black-box LLMs has
obtained promising results in the instruction-following ability. However, the
reasoning ability which is more challenging to foster, is relatively rarely
explored. In this paper, we propose a tailored learning approach to distill
such reasoning ability to smaller LMs to facilitate the democratization of the
exclusive reasoning ability. In contrast to merely employing LLM as a data
annotator, we exploit the potential of LLM as a reasoning teacher by building
an interactive multi-round learning paradigm. This paradigm enables the student
to expose its deficiencies to the black-box teacher who then can provide
customized training data in return. Further, to exploit the reasoning potential
of the smaller LM, we propose self-reflection learning to motivate the student
to learn from self-made mistakes. The learning from self-reflection and LLM are
all tailored to the student's learning status, thanks to the seamless
integration with the multi-round learning paradigm. Comprehensive experiments
and analysis on mathematical and commonsense reasoning tasks demonstrate the
effectiveness of our method. The code will be available at
https://github.com/Raibows/Learn-to-Reason.