自律的な数学研究に向けて
Towards Autonomous Mathematics Research
February 10, 2026
著者: Tony Feng, Trieu H. Trinh, Garrett Bingham, Dawsen Hwang, Yuri Chervonyi, Junehyuk Jung, Joonkyung Lee, Carlo Pagano, Sang-hyun Kim, Federico Pasqualotto, Sergei Gukov, Jonathan N. Lee, Junsu Kim, Kaiying Hou, Golnaz Ghiasi, Yi Tay, YaGuang Li, Chenkai Kuang, Yuan Liu, Hanzhao, Lin, Evan Zheran Liu, Nigamaa Nayakanti, Xiaomeng Yang, Heng-tze Cheng, Demis Hassabis, Koray Kavukcuoglu, Quoc V. Le, Thang Luong
cs.AI
要旨
基礎モデルの最近の進歩により、国際数学オリンピックで金メダル水準を達成可能な推論システムが生み出されている。しかし、競技レベルの問題解決から専門的な研究へ移行するには、膨大な文献の調査と長大な証明の構築が必要となる。本研究では、数学研究エージェント「Aletheia」を提案する。Aletheiaは、自然言語による解を生成、検証、修正するエンドツーエンドの反復的プロセスを実現する。具体的には、難解な推論問題にはGemini Deep Thinkの高度版を、オリンピック級を超える問題には新しい推論時スケーリング則を、数学研究の複雑性への対応には精緻なツール利用をそれぞれ駆使する。Aletheiaの能力を、オリンピック問題から博士課程レベルの演習問題まで実証し、さらにAI支援数学研究における3つの画期的成果として提示する:(a) 算術幾何学の構造定数である固有重みの計算において、一切の人的介入なしにAIが生成した研究論文(Feng26)、(b) 独立集合と呼ばれる相互作用粒子系の境界値証明において人間とAIが協働した研究論文(LeeSeo26)、(c) BloomのErdos予想データベースの700の未解決問題に対する大規模半自律評価(Feng et al., 2026a)と、うち4問への自律的解決。AIと数学に関する進展の社会的理解を深めるため、AI支援成果の自律性と新規性を定量化する標準レベル体系の確立を提言する。最後に、数学における人間とAIの協働についての考察で締めくくる。
English
Recent advances in foundational models have yielded reasoning systems capable of achieving a gold-medal standard at the International Mathematical Olympiad. The transition from competition-level problem-solving to professional research, however, requires navigating vast literature and constructing long-horizon proofs. In this work, we introduce Aletheia, a math research agent that iteratively generates, verifies, and revises solutions end-to-end in natural language. Specifically, Aletheia is powered by an advanced version of Gemini Deep Think for challenging reasoning problems, a novel inference-time scaling law that extends beyond Olympiad-level problems, and intensive tool use to navigate the complexities of mathematical research. We demonstrate the capability of Aletheia from Olympiad problems to PhD-level exercises and most notably, through several distinct milestones in AI-assisted mathematics research: (a) a research paper (Feng26) generated by AI without any human intervention in calculating certain structure constants in arithmetic geometry called eigenweights; (b) a research paper (LeeSeo26) demonstrating human-AI collaboration in proving bounds on systems of interacting particles called independent sets; and (c) an extensive semi-autonomous evaluation (Feng et al., 2026a) of 700 open problems on Bloom's Erdos Conjectures database, including autonomous solutions to four open questions. In order to help the public better understand the developments pertaining to AI and mathematics, we suggest codifying standard levels quantifying autonomy and novelty of AI-assisted results. We conclude with reflections on human-AI collaboration in mathematics.