ReST встречает ReAct: Самосовершенствование для многошагового рассуждения агента на основе больших языковых моделей
ReST meets ReAct: Self-Improvement for Multi-Step Reasoning LLM Agent
December 15, 2023
Авторы: Renat Aksitov, Sobhan Miryoosefi, Zonglin Li, Daliang Li, Sheila Babayan, Kavya Kopparapu, Zachary Fisher, Ruiqi Guo, Sushant Prakash, Pranesh Srinivasan, Manzil Zaheer, Felix Yu, Sanjiv Kumar
cs.AI
Аннотация
Ответы на сложные вопросы на естественном языке часто требуют многошагового рассуждения и интеграции внешней информации. Несколько систем уже объединили поиск знаний с большой языковой моделью (LLM) для решения таких задач. Однако эти системы сталкиваются с различными случаями сбоев, и мы не можем напрямую обучать их сквозным образом для устранения таких проблем, поскольку взаимодействие с внешними знаниями не является дифференцируемым. Чтобы устранить эти недостатки, мы определяем LLM-агента в стиле ReAct, способного рассуждать и действовать на основе внешних знаний. Мы дополнительно улучшаем агента с помощью метода, подобного ReST, который итеративно обучается на предыдущих траекториях, используя обучение с подкреплением с растущим пакетом и обратной связью от ИИ для непрерывного самосовершенствования и само-дистилляции. Начиная с подсказанной большой модели и всего после двух итераций алгоритма, мы можем создать тонко настроенную небольшую модель, которая демонстрирует сопоставимую производительность на сложных композиционных тестах по ответам на вопросы, используя на два порядка меньше параметров.
English
Answering complex natural language questions often necessitates multi-step
reasoning and integrating external information. Several systems have combined
knowledge retrieval with a large language model (LLM) to answer such questions.
These systems, however, suffer from various failure cases, and we cannot
directly train them end-to-end to fix such failures, as interaction with
external knowledge is non-differentiable. To address these deficiencies, we
define a ReAct-style LLM agent with the ability to reason and act upon external
knowledge. We further refine the agent through a ReST-like method that
iteratively trains on previous trajectories, employing growing-batch
reinforcement learning with AI feedback for continuous self-improvement and
self-distillation. Starting from a prompted large model and after just two
iterations of the algorithm, we can produce a fine-tuned small model that
achieves comparable performance on challenging compositional question-answering
benchmarks with two orders of magnitude fewer parameters.