Democratización de la Capacidad de Razonamiento: Aprendizaje Personalizado a partir de Modelos de Lenguaje a Gran Escala
Democratizing Reasoning Ability: Tailored Learning from Large Language Model
October 20, 2023
Autores: Zhaoyang Wang, Shaohan Huang, Yuxuan Liu, Jiahai Wang, Minghui Song, Zihan Zhang, Haizhen Huang, Furu Wei, Weiwei Deng, Feng Sun, Qi Zhang
cs.AI
Resumen
Los modelos de lenguaje de gran escala (LLMs, por sus siglas en inglés) exhiben habilidades emergentes impresionantes en el procesamiento del lenguaje natural, pero su democratización se ve obstaculizada debido a los enormes requisitos computacionales y su naturaleza de código cerrado. Investigaciones recientes sobre el avance de modelos de lenguaje más pequeños y de código abierto, mediante la destilación de conocimiento de LLMs de caja negra, han obtenido resultados prometedores en la capacidad de seguir instrucciones. Sin embargo, la capacidad de razonamiento, que es más difícil de fomentar, ha sido relativamente poco explorada. En este artículo, proponemos un enfoque de aprendizaje personalizado para destilar dicha capacidad de razonamiento en modelos de lenguaje más pequeños, con el fin de facilitar la democratización de esta habilidad exclusiva. A diferencia de emplear el LLM simplemente como un anotador de datos, aprovechamos su potencial como un profesor de razonamiento mediante la construcción de un paradigma de aprendizaje interactivo de múltiples rondas. Este paradigma permite que el estudiante exponga sus deficiencias al profesor de caja negra, quien luego puede proporcionar datos de entrenamiento personalizados. Además, para explotar el potencial de razonamiento del modelo de lenguaje más pequeño, proponemos un aprendizaje de autorreflexión que motiva al estudiante a aprender de sus propios errores. El aprendizaje a partir de la autorreflexión y del LLM se adapta al estado de aprendizaje del estudiante, gracias a la integración fluida con el paradigma de aprendizaje de múltiples rondas. Experimentos y análisis exhaustivos en tareas de razonamiento matemático y de sentido común demuestran la efectividad de nuestro método. El código estará disponible en https://github.com/Raibows/Learn-to-Reason.
English
Large language models (LLMs) exhibit impressive emergent abilities in natural
language processing, but their democratization is hindered due to huge
computation requirements and closed-source nature. Recent research on advancing
open-source smaller LMs by distilling knowledge from black-box LLMs has
obtained promising results in the instruction-following ability. However, the
reasoning ability which is more challenging to foster, is relatively rarely
explored. In this paper, we propose a tailored learning approach to distill
such reasoning ability to smaller LMs to facilitate the democratization of the
exclusive reasoning ability. In contrast to merely employing LLM as a data
annotator, we exploit the potential of LLM as a reasoning teacher by building
an interactive multi-round learning paradigm. This paradigm enables the student
to expose its deficiencies to the black-box teacher who then can provide
customized training data in return. Further, to exploit the reasoning potential
of the smaller LM, we propose self-reflection learning to motivate the student
to learn from self-made mistakes. The learning from self-reflection and LLM are
all tailored to the student's learning status, thanks to the seamless
integration with the multi-round learning paradigm. Comprehensive experiments
and analysis on mathematical and commonsense reasoning tasks demonstrate the
effectiveness of our method. The code will be available at
https://github.com/Raibows/Learn-to-Reason.