ChatPaper.aiChatPaper

복잡한 수학적 추론 모델링: 대형 언어 모델 기반 MathAgent

Modeling Complex Mathematical Reasoning via Large Language Model based MathAgent

December 14, 2023
저자: Haoran Liao, Qinyi Du, Shaohua Hu, Hao He, Yanyan Xu, Jidong Tian, Yaohui Jin
cs.AI

초록

대규모 언어 모델(LLM)은 문제 문장을 분석하고, 도메인 지식을 연관시키며, 복합적인 논리적 추론을 수행하고, 중간 단계의 논리를 통합하는 등 종합적인 능력이 요구되는 복잡한 수학 문제를 해결하는 데 어려움을 겪습니다. 이러한 모든 문제를 한 번에 해결하려는 시도는 LLM에게 부담스러울 수 있으며, 이로 인해 생성 과정에서 혼란이 발생할 수 있습니다. 본 연구에서는 수학적 추론 과정을 세심하게 분해하고 모델링함으로써 에이전트를 활용하여 LLM의 성능을 향상시킬 가능성을 탐구합니다. 구체적으로, 우리는 수학 문제 해결에 대한 공식적인 설명을 제안하고, Planner-Reasoner-Executor-Reflector(PRER)라는 에이전트 기반의 제로샷 프레임워크를 통해 LLM을 확장합니다. 또한, 다양한 세분성과 방향성을 가진 액션 풀을 통해 논리적 형태와 내재적 관계를 정의하는 두 가지 MathAgent를 제안하고 구현합니다: MathAgent-M은 LLM에 맞춰 액션을 조정하고, MathAgent-H는 인간의 사고 방식에 맞춰 조정됩니다. miniF2F와 MATH 데이터셋에서의 실험을 통해 PRER와 제안된 MathAgent의 효과를 입증하였으며, MiniF2F에서 12.3%(53.9%→66.2%), MATH에서 9.2%(49.8%→59.0%), 그리고 MATH의 레벨-5 문제에서 GPT-4 대비 13.2%(23.2%→35.4%)의 성능 향상을 달성했습니다. 추가적인 분석 결과는 에이전트로서의 LLM의 행동을 활용하는 데 있어 더 깊은 통찰을 제공합니다.
English
Large language models (LLMs) face challenges in solving complex mathematical problems that require comprehensive capacities to parse the statements, associate domain knowledge, perform compound logical reasoning, and integrate the intermediate rationales. Tackling all these problems once could be arduous for LLMs, thus leading to confusion in generation. In this work, we explore the potential of enhancing LLMs with agents by meticulous decomposition and modeling of mathematical reasoning process. Specifically, we propose a formal description of the mathematical solving and extend LLMs with an agent-based zero-shot framework named Planner-Reasoner-Executor-Reflector (PRER). We further provide and implement two MathAgents that define the logical forms and inherent relations via a pool of actions in different grains and orientations: MathAgent-M adapts its actions to LLMs, while MathAgent-H aligns with humankind. Experiments on miniF2F and MATH have demonstrated the effectiveness of PRER and proposed MathAgents, achieving an increase of 12.3%(53.9%66.2%) on the MiniF2F, 9.2% (49.8%59.0%) on MATH, and 13.2%(23.2%35.4%) for level-5 problems of MATH against GPT-4. Further analytical results provide more insightful perspectives on exploiting the behaviors of LLMs as agents.
PDF102December 15, 2024