ChatPaper.aiChatPaper

복잡도 증강 강화학습을 통한 올림피아 수준 기하학 대규모 언어 모델 에이전트 구현

Achieving Olympia-Level Geometry Large Language Model Agent via Complexity Boosting Reinforcement Learning

December 11, 2025
저자: Haiteng Zhao, Junhao Shen, Yiming Zhang, Songyang Gao, Kuikun Liu, Tianyou Ma, Fan Zheng, Dahua Lin, Wenwei Zhang, Kai Chen
cs.AI

초록

대규모 언어 모델(LLM) 에이전트는 강력한 수학 문제 해결 능력을 보여주며, 형식적 증명 시스템의 지원을 통해 국제 수학 올림피아드(IMO) 수준의 문제까지 해결할 수 있습니다. 그러나 기하학 문제 해결을 위한 보조 구성 발견에 대한 휴리스틱이 약하기 때문에, AI 기반 기하학 문제 해결 분야는 여전히 AlphaGeometry 2와 같은 전문 모델이 지배적이며, 이들은 훈련과 평가 모두에서 대규모 데이터 합성 및 탐색에 크게 의존합니다. 본 연구에서는 기하학 분야에서 금메달 수준의 LLM 에이전트를 구축하는 첫 번째 시도로 InternGeometry를 제안합니다. InternGeometry는 명제와 보조 구성을 반복적으로 제안하고, 기호 엔진으로 검증하며, 엔진의 피드백을 반영하여 후속 제안을 안내함으로써 기하학에서의 휴리스틱 한계를 극복합니다. 동적 메모리 메커니즘을 통해 InternGeometry는 문제당 기호 엔진과 200회 이상의 상호작용을 수행할 수 있습니다. 학습 속도를 더욱 높이기 위해, 훈련 단계별로 합성된 문제의 복잡성을 점진적으로 증가시키는 복잡성 강화 강화 학습(CBRL)을 도입했습니다. InternThinker-32B를 기반으로 구축된 InternGeometry는 2000-2024년 IMO 기하학 문제 50개 중 44개를 해결하여 평균 금메달리스트 점수(40.9)를 넘어섰으며, AlphaGeometry 2가 사용한 데이터의 약 0.004%에 불과한 13K개의 훈련 예시만을 사용하여 전문가 수준 기하학 과제에서 LLM 에이전트의 잠재력을 입증했습니다. 또한 InternGeometry는 인간의 해법에는 등장하지 않는 IMO 문제에 대한 새로운 보조 구성을 제안할 수도 있습니다. 향후 연구를 지원하기 위해 모델, 데이터 및 기호 엔진을 공개할 예정입니다.
English
Large language model (LLM) agents exhibit strong mathematical problem-solving abilities and can even solve International Mathematical Olympiad (IMO) level problems with the assistance of formal proof systems. However, due to weak heuristics for auxiliary constructions, AI for geometry problem solving remains dominated by expert models such as AlphaGeometry 2, which rely heavily on large-scale data synthesis and search for both training and evaluation. In this work, we make the first attempt to build a medalist-level LLM agent for geometry and present InternGeometry. InternGeometry overcomes the heuristic limitations in geometry by iteratively proposing propositions and auxiliary constructions, verifying them with a symbolic engine, and reflecting on the engine's feedback to guide subsequent proposals. A dynamic memory mechanism enables InternGeometry to conduct more than two hundred interactions with the symbolic engine per problem. To further accelerate learning, we introduce Complexity-Boosting Reinforcement Learning (CBRL), which gradually increases the complexity of synthesized problems across training stages. Built on InternThinker-32B, InternGeometry solves 44 of 50 IMO geometry problems (2000-2024), exceeding the average gold medalist score (40.9), using only 13K training examples, just 0.004% of the data used by AlphaGeometry 2, demonstrating the potential of LLM agents on expert-level geometry tasks. InternGeometry can also propose novel auxiliary constructions for IMO problems that do not appear in human solutions. We will release the model, data, and symbolic engine to support future research.
PDF251December 13, 2025