복잡한 수학적 추론 모델링: 대형 언어 모델 기반 MathAgent
Modeling Complex Mathematical Reasoning via Large Language Model based MathAgent
December 14, 2023
저자: Haoran Liao, Qinyi Du, Shaohua Hu, Hao He, Yanyan Xu, Jidong Tian, Yaohui Jin
cs.AI
초록
대규모 언어 모델(LLM)은 문제 문장을 분석하고, 도메인 지식을 연관시키며, 복합적인 논리적 추론을 수행하고, 중간 단계의 논리를 통합하는 등 종합적인 능력이 요구되는 복잡한 수학 문제를 해결하는 데 어려움을 겪습니다. 이러한 모든 문제를 한 번에 해결하려는 시도는 LLM에게 부담스러울 수 있으며, 이로 인해 생성 과정에서 혼란이 발생할 수 있습니다. 본 연구에서는 수학적 추론 과정을 세심하게 분해하고 모델링함으로써 에이전트를 활용하여 LLM의 성능을 향상시킬 가능성을 탐구합니다. 구체적으로, 우리는 수학 문제 해결에 대한 공식적인 설명을 제안하고, Planner-Reasoner-Executor-Reflector(PRER)라는 에이전트 기반의 제로샷 프레임워크를 통해 LLM을 확장합니다. 또한, 다양한 세분성과 방향성을 가진 액션 풀을 통해 논리적 형태와 내재적 관계를 정의하는 두 가지 MathAgent를 제안하고 구현합니다: MathAgent-M은 LLM에 맞춰 액션을 조정하고, MathAgent-H는 인간의 사고 방식에 맞춰 조정됩니다. miniF2F와 MATH 데이터셋에서의 실험을 통해 PRER와 제안된 MathAgent의 효과를 입증하였으며, MiniF2F에서 12.3%(53.9%→66.2%), MATH에서 9.2%(49.8%→59.0%), 그리고 MATH의 레벨-5 문제에서 GPT-4 대비 13.2%(23.2%→35.4%)의 성능 향상을 달성했습니다. 추가적인 분석 결과는 에이전트로서의 LLM의 행동을 활용하는 데 있어 더 깊은 통찰을 제공합니다.
English
Large language models (LLMs) face challenges in solving complex mathematical
problems that require comprehensive capacities to parse the statements,
associate domain knowledge, perform compound logical reasoning, and integrate
the intermediate rationales. Tackling all these problems once could be arduous
for LLMs, thus leading to confusion in generation. In this work, we explore the
potential of enhancing LLMs with agents by meticulous decomposition and
modeling of mathematical reasoning process. Specifically, we propose a formal
description of the mathematical solving and extend LLMs with an agent-based
zero-shot framework named
Planner-Reasoner-Executor-Reflector (PRER). We
further provide and implement two MathAgents that define the logical forms and
inherent relations via a pool of actions in different grains and orientations:
MathAgent-M adapts its actions to LLMs, while MathAgent-H aligns with
humankind. Experiments on miniF2F and MATH have demonstrated the effectiveness
of PRER and proposed MathAgents, achieving an increase of
12.3%(53.9%66.2%) on the MiniF2F, 9.2%
(49.8%59.0%) on MATH, and
13.2%(23.2%35.4%) for level-5 problems of MATH against
GPT-4. Further analytical results provide more insightful perspectives on
exploiting the behaviors of LLMs as agents.