Democratización de la Capacidad de Razonamiento: Aprendizaje Personalizado a partir de Modelos de Lenguaje a Gran Escala

Resumen

Los modelos de lenguaje de gran escala (LLMs, por sus siglas en inglés) exhiben habilidades emergentes impresionantes en el procesamiento del lenguaje natural, pero su democratización se ve obstaculizada debido a los enormes requisitos computacionales y su naturaleza de código cerrado. Investigaciones recientes sobre el avance de modelos de lenguaje más pequeños y de código abierto, mediante la destilación de conocimiento de LLMs de caja negra, han obtenido resultados prometedores en la capacidad de seguir instrucciones. Sin embargo, la capacidad de razonamiento, que es más difícil de fomentar, ha sido relativamente poco explorada. En este artículo, proponemos un enfoque de aprendizaje personalizado para destilar dicha capacidad de razonamiento en modelos de lenguaje más pequeños, con el fin de facilitar la democratización de esta habilidad exclusiva. A diferencia de emplear el LLM simplemente como un anotador de datos, aprovechamos su potencial como un profesor de razonamiento mediante la construcción de un paradigma de aprendizaje interactivo de múltiples rondas. Este paradigma permite que el estudiante exponga sus deficiencias al profesor de caja negra, quien luego puede proporcionar datos de entrenamiento personalizados. Además, para explotar el potencial de razonamiento del modelo de lenguaje más pequeño, proponemos un aprendizaje de autorreflexión que motiva al estudiante a aprender de sus propios errores. El aprendizaje a partir de la autorreflexión y del LLM se adapta al estado de aprendizaje del estudiante, gracias a la integración fluida con el paradigma de aprendizaje de múltiples rondas. Experimentos y análisis exhaustivos en tareas de razonamiento matemático y de sentido común demuestran la efectividad de nuestro método. El código estará disponible en https://github.com/Raibows/Learn-to-Reason.

English

Large language models (LLMs) exhibit impressive emergent abilities in natural language processing, but their democratization is hindered due to huge computation requirements and closed-source nature. Recent research on advancing open-source smaller LMs by distilling knowledge from black-box LLMs has obtained promising results in the instruction-following ability. However, the reasoning ability which is more challenging to foster, is relatively rarely explored. In this paper, we propose a tailored learning approach to distill such reasoning ability to smaller LMs to facilitate the democratization of the exclusive reasoning ability. In contrast to merely employing LLM as a data annotator, we exploit the potential of LLM as a reasoning teacher by building an interactive multi-round learning paradigm. This paradigm enables the student to expose its deficiencies to the black-box teacher who then can provide customized training data in return. Further, to exploit the reasoning potential of the smaller LM, we propose self-reflection learning to motivate the student to learn from self-made mistakes. The learning from self-reflection and LLM are all tailored to the student's learning status, thanks to the seamless integration with the multi-round learning paradigm. Comprehensive experiments and analysis on mathematical and commonsense reasoning tasks demonstrate the effectiveness of our method. The code will be available at https://github.com/Raibows/Learn-to-Reason.

Democratización de la Capacidad de Razonamiento: Aprendizaje Personalizado a partir de Modelos de Lenguaje a Gran Escala

Democratizing Reasoning Ability: Tailored Learning from Large Language Model

Resumen

Support