점: 최적 추론 경로 탐색을 통한 LLMs에서 동적 추론 학습
DOTS: Learning to Reason Dynamically in LLMs via Optimal Reasoning Trajectories Search
October 4, 2024
저자: Murong Yue, Wenlin Yao, Haitao Mi, Dian Yu, Ziyu Yao, Dong Yu
cs.AI
초록
최근 몇 년간 대형 언어 모델(Large Language Models, LLMs)의 추론 능력을 향상시키는 것이 중요한 관심을 받아왔습니다. 이전 연구들은 다양한 프롬프팅 전략이 LLMs의 추론(즉, "추론 동작")을 지원하는 데 효과적임을 입증해 왔습니다. 이러한 전략에는 단계별 사고, 답변 전에 반성, 프로그램을 사용한 해결, 그리고 이들의 조합이 포함됩니다. 그러나 이러한 방법들은 종종 모든 질문에 대해 정적이고 미리 정의된 추론 동작을 일괄적으로 적용했으며, 각 질문의 특정 특성이나 과제 해결 LLM의 능력을 고려하지 않았습니다. 본 논문에서는 각 질문의 특성과 과제 해결 LLM의 내재 능력에 맞게 조정된 최적 추론 경로 탐색을 통해 LLMs가 동적으로 추론할 수 있도록 하는 DOTS 접근 방식을 제안합니다. 우리의 방법은 세 가지 주요 단계로 구성됩니다: i) 다양한 추론 동작 경로로 구성될 수 있는 원자 추론 동작 모듈을 정의하는 것, ii) 각 훈련 질문에 대한 최적 동작 경로를 특정 과제 해결 LLM에 대한 반복적 탐색과 평가를 통해 찾는 것, 그리고 iii) 수집된 최적 경로를 사용하여 LLM을 훈련시켜 보이지 않은 질문의 추론 경로를 계획하도록 하는 것입니다. 특히, 우리는 두 가지 학습 패러다임을 제안합니다. 즉, 과제 해결 LLM을 안내하기 위해 외부 LLM을 플래너로 세밀하게 조정하거나, 추론 동작 계획을 내재화한 능력으로 과제 해결 LLM을 직접 세밀하게 조정하는 것입니다. 여덟 가지 추론 과제를 횡단하는 우리의 실험은 우리의 방법이 일관되게 정적 추론 기술과 바닐라 지시 조정 방식을 능가함을 보여줍니다. 추가적인 분석 결과, 우리의 방법이 LLMs가 문제 복잡성에 따라 계산을 조정하고, 더 어려운 문제에 대해 깊은 사고와 추론을 할당할 수 있도록 합니다.
English
Enhancing the capability of large language models (LLMs) in reasoning has
gained significant attention in recent years. Previous studies have
demonstrated the effectiveness of various prompting strategies in aiding LLMs
in reasoning (called "reasoning actions"), such as step-by-step thinking,
reflecting before answering, solving with programs, and their combinations.
However, these approaches often applied static, predefined reasoning actions
uniformly to all questions, without considering the specific characteristics of
each question or the capability of the task-solving LLM. In this paper, we
propose DOTS, an approach enabling LLMs to reason dynamically via optimal
reasoning trajectory search, tailored to the specific characteristics of each
question and the inherent capability of the task-solving LLM. Our approach
involves three key steps: i) defining atomic reasoning action modules that can
be composed into various reasoning action trajectories; ii) searching for the
optimal action trajectory for each training question through iterative
exploration and evaluation for the specific task-solving LLM; and iii) using
the collected optimal trajectories to train an LLM to plan for the reasoning
trajectories of unseen questions. In particular, we propose two learning
paradigms, i.e., fine-tuning an external LLM as a planner to guide the
task-solving LLM, or directly fine-tuning the task-solving LLM with an
internalized capability for reasoning actions planning. Our experiments across
eight reasoning tasks show that our method consistently outperforms static
reasoning techniques and the vanilla instruction tuning approach. Further
analysis reveals that our method enables LLMs to adjust their computation based
on problem complexity, allocating deeper thinking and reasoning to harder
problems.Summary
AI-Generated Summary