자율 수학 연구를 향하여
Towards Autonomous Mathematics Research
February 10, 2026
저자: Tony Feng, Trieu H. Trinh, Garrett Bingham, Dawsen Hwang, Yuri Chervonyi, Junehyuk Jung, Joonkyung Lee, Carlo Pagano, Sang-hyun Kim, Federico Pasqualotto, Sergei Gukov, Jonathan N. Lee, Junsu Kim, Kaiying Hou, Golnaz Ghiasi, Yi Tay, YaGuang Li, Chenkai Kuang, Yuan Liu, Hanzhao, Lin, Evan Zheran Liu, Nigamaa Nayakanti, Xiaomeng Yang, Heng-tze Cheng, Demis Hassabis, Koray Kavukcuoglu, Quoc V. Le, Thang Luong
cs.AI
초록
최근 기초 모델의 발전으로 국제 수학 올림피아드에서 금메달 수준의 성과를 달성할 수 있는 추론 시스템이 등장했습니다. 그러나 경쟁 수준의 문제 해결에서 전문적인 연구로의 전환은 방대한 문헌을 탐색하고 장기적인 증명을 구성해야 하는 과제를 수반합니다. 본 연구에서는 자연어로 종단간 솔루션을 반복적으로 생성, 검증 및 수정하는 수학 연구 에이전트인 Aletheia를 소개합니다. 구체적으로 Aletheia는 (a) 도전적인 추론 문제를 위한 고도화된 Gemini Deep Think, (b) 올림피아드 수준 문제를 넘어서는 새로운 추론 시점 스케일링 법칙, 그리고 (c) 수학 연구의 복잡성을 탐색하기 위한 집중적인 도구 활용을 통해 구동됩니다. 우리는 Aletheia의 능력을 올림피아드 문제부터 박사 수준 연습문제에 이르기까지 증명하고, 특히 AI 지원 수학 연구의 몇 가지 독보적인 성과를 통해 입증합니다: (a) 산술기하학의 특정 구조 상수인 고유가중치 계산에 있어 인간의 개입 없이 AI가 생성한 연구 논문(Feng26), (b) 독립집합이라고 불리는 상호작용 입자 시스템의 경계를 증명하는 인간-AI 협업을 보여준 연구 논문(LeeSeo26), 그리고 (c) Bloom의 Erdos 추측 데이터베이스 내 700개의 미해결 문제에 대한 광범위한 반자율 평가(Feng et al., 2026a) 및 네 가지 미해결 문제에 대한 자율적 해결. 대중이 AI와 수학 관련 발전을 더 잘 이해할 수 있도록, AI 지원 결과의 자율성과 참신성을 정량화하는 표준 수준 체계를 정립할 것을 제안합니다. 마지막으로 수학 분야에서의 인간-AI 협력에 대한 성찰로 글을 마무리합니다.
English
Recent advances in foundational models have yielded reasoning systems capable of achieving a gold-medal standard at the International Mathematical Olympiad. The transition from competition-level problem-solving to professional research, however, requires navigating vast literature and constructing long-horizon proofs. In this work, we introduce Aletheia, a math research agent that iteratively generates, verifies, and revises solutions end-to-end in natural language. Specifically, Aletheia is powered by an advanced version of Gemini Deep Think for challenging reasoning problems, a novel inference-time scaling law that extends beyond Olympiad-level problems, and intensive tool use to navigate the complexities of mathematical research. We demonstrate the capability of Aletheia from Olympiad problems to PhD-level exercises and most notably, through several distinct milestones in AI-assisted mathematics research: (a) a research paper (Feng26) generated by AI without any human intervention in calculating certain structure constants in arithmetic geometry called eigenweights; (b) a research paper (LeeSeo26) demonstrating human-AI collaboration in proving bounds on systems of interacting particles called independent sets; and (c) an extensive semi-autonomous evaluation (Feng et al., 2026a) of 700 open problems on Bloom's Erdos Conjectures database, including autonomous solutions to four open questions. In order to help the public better understand the developments pertaining to AI and mathematics, we suggest codifying standard levels quantifying autonomy and novelty of AI-assisted results. We conclude with reflections on human-AI collaboration in mathematics.