Democratizando a Capacidade de Raciocínio: Aprendizado Personalizado a partir de Modelos de Linguagem de Grande Escala

Resumo

Grandes modelos de linguagem (LLMs) exibem habilidades emergentes impressionantes no processamento de linguagem natural, mas sua democratização é dificultada devido aos enormes requisitos de computação e à natureza de código fechado. Pesquisas recentes sobre o avanço de LLMs menores e de código aberto, por meio da destilação de conhecimento de LLMs de caixa preta, obtiveram resultados promissores na capacidade de seguir instruções. No entanto, a capacidade de raciocínio, que é mais desafiadora de desenvolver, é relativamente pouco explorada. Neste artigo, propomos uma abordagem de aprendizado personalizada para destilar essa capacidade de raciocínio para LLMs menores, a fim de facilitar a democratização dessa habilidade exclusiva. Em contraste com o uso meramente do LLM como um anotador de dados, exploramos o potencial do LLM como um professor de raciocínio, construindo um paradigma de aprendizado interativo e multi-rodadas. Esse paradigma permite que o aluno exponha suas deficiências ao professor de caixa preta, que então pode fornecer dados de treinamento personalizados em troca. Além disso, para explorar o potencial de raciocínio do LLM menor, propomos o aprendizado por autorreflexão, incentivando o aluno a aprender com seus próprios erros. O aprendizado por autorreflexão e o LLM são todos adaptados ao status de aprendizado do aluno, graças à integração perfeita com o paradigma de aprendizado multi-rodadas. Experimentos abrangentes e análises em tarefas de raciocínio matemático e de senso comum demonstram a eficácia do nosso método. O código estará disponível em https://github.com/Raibows/Learn-to-Reason.

English

Large language models (LLMs) exhibit impressive emergent abilities in natural language processing, but their democratization is hindered due to huge computation requirements and closed-source nature. Recent research on advancing open-source smaller LMs by distilling knowledge from black-box LLMs has obtained promising results in the instruction-following ability. However, the reasoning ability which is more challenging to foster, is relatively rarely explored. In this paper, we propose a tailored learning approach to distill such reasoning ability to smaller LMs to facilitate the democratization of the exclusive reasoning ability. In contrast to merely employing LLM as a data annotator, we exploit the potential of LLM as a reasoning teacher by building an interactive multi-round learning paradigm. This paradigm enables the student to expose its deficiencies to the black-box teacher who then can provide customized training data in return. Further, to exploit the reasoning potential of the smaller LM, we propose self-reflection learning to motivate the student to learn from self-made mistakes. The learning from self-reflection and LLM are all tailored to the student's learning status, thanks to the seamless integration with the multi-round learning paradigm. Comprehensive experiments and analysis on mathematical and commonsense reasoning tasks demonstrate the effectiveness of our method. The code will be available at https://github.com/Raibows/Learn-to-Reason.

Democratizando a Capacidade de Raciocínio: Aprendizado Personalizado a partir de Modelos de Linguagem de Grande Escala

Democratizing Reasoning Ability: Tailored Learning from Large Language Model

Resumo

Support