ChatPaper.aiChatPaper

Демократизация способности к рассуждению: адаптивное обучение на основе крупных языковых моделей

Democratizing Reasoning Ability: Tailored Learning from Large Language Model

October 20, 2023
Авторы: Zhaoyang Wang, Shaohan Huang, Yuxuan Liu, Jiahai Wang, Minghui Song, Zihan Zhang, Haizhen Huang, Furu Wei, Weiwei Deng, Feng Sun, Qi Zhang
cs.AI

Аннотация

Крупные языковые модели (LLM) демонстрируют впечатляющие эмерджентные способности в обработке естественного языка, но их демократизация затруднена из-за огромных вычислительных требований и закрытого характера. Недавние исследования, направленные на развитие открытых меньших языковых моделей путем дистилляции знаний из чернобоксных LLM, показали многообещающие результаты в способности следовать инструкциям. Однако способность к рассуждению, которую сложнее развить, изучена относительно мало. В данной статье мы предлагаем специализированный подход к обучению для дистилляции этой способности к рассуждению в меньшие языковые модели, чтобы способствовать демократизации исключительной способности к рассуждению. В отличие от простого использования LLM в качестве аннотатора данных, мы раскрываем потенциал LLM как учителя рассуждений, создавая интерактивную многоэтапную парадигму обучения. Эта парадигма позволяет ученику выявлять свои недостатки перед чернобоксным учителем, который затем может предоставить персонализированные обучающие данные. Кроме того, чтобы раскрыть потенциал рассуждений меньшей языковой модели, мы предлагаем обучение через саморефлексию, мотивируя ученика учиться на собственных ошибках. Обучение через саморефлексию и с помощью LLM адаптируется к текущему состоянию обучения ученика благодаря бесшовной интеграции с многоэтапной парадигмой обучения. Комплексные эксперименты и анализ на задачах математического и здравого рассуждения демонстрируют эффективность нашего метода. Код будет доступен по адресу https://github.com/Raibows/Learn-to-Reason.
English
Large language models (LLMs) exhibit impressive emergent abilities in natural language processing, but their democratization is hindered due to huge computation requirements and closed-source nature. Recent research on advancing open-source smaller LMs by distilling knowledge from black-box LLMs has obtained promising results in the instruction-following ability. However, the reasoning ability which is more challenging to foster, is relatively rarely explored. In this paper, we propose a tailored learning approach to distill such reasoning ability to smaller LMs to facilitate the democratization of the exclusive reasoning ability. In contrast to merely employing LLM as a data annotator, we exploit the potential of LLM as a reasoning teacher by building an interactive multi-round learning paradigm. This paradigm enables the student to expose its deficiencies to the black-box teacher who then can provide customized training data in return. Further, to exploit the reasoning potential of the smaller LM, we propose self-reflection learning to motivate the student to learn from self-made mistakes. The learning from self-reflection and LLM are all tailored to the student's learning status, thanks to the seamless integration with the multi-round learning paradigm. Comprehensive experiments and analysis on mathematical and commonsense reasoning tasks demonstrate the effectiveness of our method. The code will be available at https://github.com/Raibows/Learn-to-Reason.
PDF161December 15, 2024