Демократизация способности к рассуждению: адаптивное обучение на основе крупных языковых моделей
Democratizing Reasoning Ability: Tailored Learning from Large Language Model
October 20, 2023
Авторы: Zhaoyang Wang, Shaohan Huang, Yuxuan Liu, Jiahai Wang, Minghui Song, Zihan Zhang, Haizhen Huang, Furu Wei, Weiwei Deng, Feng Sun, Qi Zhang
cs.AI
Аннотация
Крупные языковые модели (LLM) демонстрируют впечатляющие эмерджентные способности в обработке естественного языка, но их демократизация затруднена из-за огромных вычислительных требований и закрытого характера. Недавние исследования, направленные на развитие открытых меньших языковых моделей путем дистилляции знаний из чернобоксных LLM, показали многообещающие результаты в способности следовать инструкциям. Однако способность к рассуждению, которую сложнее развить, изучена относительно мало. В данной статье мы предлагаем специализированный подход к обучению для дистилляции этой способности к рассуждению в меньшие языковые модели, чтобы способствовать демократизации исключительной способности к рассуждению. В отличие от простого использования LLM в качестве аннотатора данных, мы раскрываем потенциал LLM как учителя рассуждений, создавая интерактивную многоэтапную парадигму обучения. Эта парадигма позволяет ученику выявлять свои недостатки перед чернобоксным учителем, который затем может предоставить персонализированные обучающие данные. Кроме того, чтобы раскрыть потенциал рассуждений меньшей языковой модели, мы предлагаем обучение через саморефлексию, мотивируя ученика учиться на собственных ошибках. Обучение через саморефлексию и с помощью LLM адаптируется к текущему состоянию обучения ученика благодаря бесшовной интеграции с многоэтапной парадигмой обучения. Комплексные эксперименты и анализ на задачах математического и здравого рассуждения демонстрируют эффективность нашего метода. Код будет доступен по адресу https://github.com/Raibows/Learn-to-Reason.
English
Large language models (LLMs) exhibit impressive emergent abilities in natural
language processing, but their democratization is hindered due to huge
computation requirements and closed-source nature. Recent research on advancing
open-source smaller LMs by distilling knowledge from black-box LLMs has
obtained promising results in the instruction-following ability. However, the
reasoning ability which is more challenging to foster, is relatively rarely
explored. In this paper, we propose a tailored learning approach to distill
such reasoning ability to smaller LMs to facilitate the democratization of the
exclusive reasoning ability. In contrast to merely employing LLM as a data
annotator, we exploit the potential of LLM as a reasoning teacher by building
an interactive multi-round learning paradigm. This paradigm enables the student
to expose its deficiencies to the black-box teacher who then can provide
customized training data in return. Further, to exploit the reasoning potential
of the smaller LM, we propose self-reflection learning to motivate the student
to learn from self-made mistakes. The learning from self-reflection and LLM are
all tailored to the student's learning status, thanks to the seamless
integration with the multi-round learning paradigm. Comprehensive experiments
and analysis on mathematical and commonsense reasoning tasks demonstrate the
effectiveness of our method. The code will be available at
https://github.com/Raibows/Learn-to-Reason.