ChatPaper.aiChatPaper

複雑度増強型強化学習によるオリンピア級幾何学大規模言語モデルエージェントの実現

Achieving Olympia-Level Geometry Large Language Model Agent via Complexity Boosting Reinforcement Learning

December 11, 2025
著者: Haiteng Zhao, Junhao Shen, Yiming Zhang, Songyang Gao, Kuikun Liu, Tianyou Ma, Fan Zheng, Dahua Lin, Wenwei Zhang, Kai Chen
cs.AI

要旨

大規模言語モデル(LLM)エージェントは強力な数学的問題解決能力を示し、形式的証明システムの補助により国際数学オリンピック(IMO)レベルの問題さえ解くことが可能です。しかし、補助的構図に対する発見的手法の弱さから、幾何学問題解決におけるAIは依然としてAlphaGeometry 2のような専門モデルが主流であり、これらは学習と評価の両方で大規模なデータ合成と探索に大きく依存しています。本研究では、幾何学問題でメダリスト級の性能を発揮するLLMエージェントを初めて構築し、InternGeometryを提案します。InternGeometryは、命題と補助構図の反復的提案、記号エンジンによる検証、エンジンのフィードバックに基づく反省を通じて、幾何学における発見的手法の限界を克服します。動的メモリ機構により、InternGeometryは問題ごとに記号エンジンと200回以上対話可能です。学習効率をさらに高めるため、訓練段階ごとに合成問題の複雑性を段階的に増加させる複雑性増強強化学習(CBRL)を導入しました。InternThinker-32Bを基盤とするInternGeometryは、13Kの訓練事例のみ(AlphaGeometry 2の使用データ量のわずか0.004%)で、IMO幾何学問題(2000-2024)50問中44問を解決し、金メダリスト平均スコア(40.9)を上回り、LLMエージェントの専門レベル幾何学タスクにおける可能性を実証しました。さらにInternGeometryは、人間の解答には現れない独自の補助構図をIMO問題に対して提案可能です。今後の研究発展のため、モデル・データ・記号エンジンを公開予定です。
English
Large language model (LLM) agents exhibit strong mathematical problem-solving abilities and can even solve International Mathematical Olympiad (IMO) level problems with the assistance of formal proof systems. However, due to weak heuristics for auxiliary constructions, AI for geometry problem solving remains dominated by expert models such as AlphaGeometry 2, which rely heavily on large-scale data synthesis and search for both training and evaluation. In this work, we make the first attempt to build a medalist-level LLM agent for geometry and present InternGeometry. InternGeometry overcomes the heuristic limitations in geometry by iteratively proposing propositions and auxiliary constructions, verifying them with a symbolic engine, and reflecting on the engine's feedback to guide subsequent proposals. A dynamic memory mechanism enables InternGeometry to conduct more than two hundred interactions with the symbolic engine per problem. To further accelerate learning, we introduce Complexity-Boosting Reinforcement Learning (CBRL), which gradually increases the complexity of synthesized problems across training stages. Built on InternThinker-32B, InternGeometry solves 44 of 50 IMO geometry problems (2000-2024), exceeding the average gold medalist score (40.9), using only 13K training examples, just 0.004% of the data used by AlphaGeometry 2, demonstrating the potential of LLM agents on expert-level geometry tasks. InternGeometry can also propose novel auxiliary constructions for IMO problems that do not appear in human solutions. We will release the model, data, and symbolic engine to support future research.
PDF251December 13, 2025