Точки: Обучение динамическому рассуждению в LLM с помощью оптимального поиска траекторий рассуждений
DOTS: Learning to Reason Dynamically in LLMs via Optimal Reasoning Trajectories Search
October 4, 2024
Авторы: Murong Yue, Wenlin Yao, Haitao Mi, Dian Yu, Ziyu Yao, Dong Yu
cs.AI
Аннотация
Улучшение способностей к рассуждению крупных языковых моделей (LLM) привлекло значительное внимание в последние годы. Предыдущие исследования продемонстрировали эффективность различных стратегий подсказок, помогающих LLM в рассуждениях (называемых "действиями рассуждения"), таких как пошаговое мышление, размышление перед ответом, решение с помощью программ и их комбинации. Однако эти подходы часто применяли статические, заранее определенные действия рассуждения равномерно ко всем вопросам, не учитывая конкретные характеристики каждого вопроса или способности LLM к решению задачи. В данной статье мы предлагаем DOTS, подход, позволяющий LLM рассуждать динамически с помощью поиска оптимальной траектории рассуждения, адаптированной к конкретным характеристикам каждого вопроса и врожденной способности LLM к решению задачи. Наш подход включает три ключевых этапа: i) определение атомных модулей действий рассуждения, которые могут быть объединены в различные траектории действий рассуждения; ii) поиск оптимальной траектории действий для каждого обучающего вопроса через итеративное исследование и оценку для конкретного LLM, решающего задачу; и iii) использование собранных оптимальных траекторий для обучения LLM планированию траекторий рассуждения для невидимых вопросов. В частности, мы предлагаем две парадигмы обучения, а именно, донастройку внешнего LLM в качестве планировщика для направления LLM, решающего задачу, или прямую донастройку LLM, решающего задачу, с внутренней способностью к планированию действий рассуждения. Наши эксперименты по восьми задачам рассуждения показывают, что наш метод последовательно превосходит статические методы рассуждения и обычный подход к настройке инструкций. Дополнительный анализ показывает, что наш метод позволяет LLM адаптировать свои вычисления в зависимости от сложности проблемы, выделяя более глубокое мышление и рассуждения для более сложных задач.
English
Enhancing the capability of large language models (LLMs) in reasoning has
gained significant attention in recent years. Previous studies have
demonstrated the effectiveness of various prompting strategies in aiding LLMs
in reasoning (called "reasoning actions"), such as step-by-step thinking,
reflecting before answering, solving with programs, and their combinations.
However, these approaches often applied static, predefined reasoning actions
uniformly to all questions, without considering the specific characteristics of
each question or the capability of the task-solving LLM. In this paper, we
propose DOTS, an approach enabling LLMs to reason dynamically via optimal
reasoning trajectory search, tailored to the specific characteristics of each
question and the inherent capability of the task-solving LLM. Our approach
involves three key steps: i) defining atomic reasoning action modules that can
be composed into various reasoning action trajectories; ii) searching for the
optimal action trajectory for each training question through iterative
exploration and evaluation for the specific task-solving LLM; and iii) using
the collected optimal trajectories to train an LLM to plan for the reasoning
trajectories of unseen questions. In particular, we propose two learning
paradigms, i.e., fine-tuning an external LLM as a planner to guide the
task-solving LLM, or directly fine-tuning the task-solving LLM with an
internalized capability for reasoning actions planning. Our experiments across
eight reasoning tasks show that our method consistently outperforms static
reasoning techniques and the vanilla instruction tuning approach. Further
analysis reveals that our method enables LLMs to adjust their computation based
on problem complexity, allocating deeper thinking and reasoning to harder
problems.Summary
AI-Generated Summary