ChatPaper.aiChatPaper

Op weg naar autonoom wiskundig onderzoek

Towards Autonomous Mathematics Research

February 10, 2026
Auteurs: Tony Feng, Trieu H. Trinh, Garrett Bingham, Dawsen Hwang, Yuri Chervonyi, Junehyuk Jung, Joonkyung Lee, Carlo Pagano, Sang-hyun Kim, Federico Pasqualotto, Sergei Gukov, Jonathan N. Lee, Junsu Kim, Kaiying Hou, Golnaz Ghiasi, Yi Tay, YaGuang Li, Chenkai Kuang, Yuan Liu, Hanzhao, Lin, Evan Zheran Liu, Nigamaa Nayakanti, Xiaomeng Yang, Heng-tze Cheng, Demis Hassabis, Koray Kavukcuoglu, Quoc V. Le, Thang Luong
cs.AI

Samenvatting

Recente ontwikkelingen in fundamentele modellen hebben redeneersystemen opgeleverd die in staat zijn tot een gouden-medaille niveau op de Internationale Wiskunde Olympiade. De overgang van het oplossen van wedstrijdniveauproblemen naar professioneel onderzoek vereist echter het navigeren door een uitgebreide literatuur en het construeren van bewijzen met een lange tijdslijn. In dit werk introduceren we Aletheia, een wiskunde-onderzoeksagent die iteratief oplossingen genereert, verifieert en reviseert end-to-end in natuurlijke taal. Specifiek wordt Aletheia aangedreven door een geavanceerde versie van Gemini Deep Think voor uitdagende redeneerproblemen, een nieuwe schaalwet tijdens inferentie die verder reikt dan Olympiadeniveau-problemen, en intensief gebruik van tools om de complexiteit van wiskundig onderzoek te navigeren. We demonstreren de capaciteiten van Aletheia, van Olympiade-problemen tot PhD-niveau oefeningen, en vooral via verschillende mijlpalen in AI-ondersteund wiskundeonderzoek: (a) een onderzoekspaper (Feng26) gegenereerd door AI zonder enige menselijke interventie bij het berekenen van bepaalde structuurconstanten in de rekenkundige meetkunde, genaamd eigengewichten; (b) een onderzoekspaper (LeeSeo26) die mens-AI-samenwerking demonstreert bij het bewijzen van grenzen voor systemen van interagerende deeltjes, genaamd onafhankelijke verzamelingen; en (c) een uitgebreide semi-autonome evaluatie (Feng et al., 2026a) van 700 open problemen in Bloom's Erdos Conjectures-database, inclusief autonome oplossingen voor vier open vragen. Om het publiek te helpen de ontwikkelingen rond AI en wiskunde beter te begrijpen, stellen we voor om standaardniveaus te codificeren die de autonomie en originaliteit van AI-ondersteunde resultaten kwantificeren. We sluiten af met reflecties op mens-AI-samenwerking in de wiskunde.
English
Recent advances in foundational models have yielded reasoning systems capable of achieving a gold-medal standard at the International Mathematical Olympiad. The transition from competition-level problem-solving to professional research, however, requires navigating vast literature and constructing long-horizon proofs. In this work, we introduce Aletheia, a math research agent that iteratively generates, verifies, and revises solutions end-to-end in natural language. Specifically, Aletheia is powered by an advanced version of Gemini Deep Think for challenging reasoning problems, a novel inference-time scaling law that extends beyond Olympiad-level problems, and intensive tool use to navigate the complexities of mathematical research. We demonstrate the capability of Aletheia from Olympiad problems to PhD-level exercises and most notably, through several distinct milestones in AI-assisted mathematics research: (a) a research paper (Feng26) generated by AI without any human intervention in calculating certain structure constants in arithmetic geometry called eigenweights; (b) a research paper (LeeSeo26) demonstrating human-AI collaboration in proving bounds on systems of interacting particles called independent sets; and (c) an extensive semi-autonomous evaluation (Feng et al., 2026a) of 700 open problems on Bloom's Erdos Conjectures database, including autonomous solutions to four open questions. In order to help the public better understand the developments pertaining to AI and mathematics, we suggest codifying standard levels quantifying autonomy and novelty of AI-assisted results. We conclude with reflections on human-AI collaboration in mathematics.
PDF361March 10, 2026