Vers une recherche mathématique autonome
Towards Autonomous Mathematics Research
February 10, 2026
papers.authors: Tony Feng, Trieu H. Trinh, Garrett Bingham, Dawsen Hwang, Yuri Chervonyi, Junehyuk Jung, Joonkyung Lee, Carlo Pagano, Sang-hyun Kim, Federico Pasqualotto, Sergei Gukov, Jonathan N. Lee, Junsu Kim, Kaiying Hou, Golnaz Ghiasi, Yi Tay, YaGuang Li, Chenkai Kuang, Yuan Liu, Hanzhao, Lin, Evan Zheran Liu, Nigamaa Nayakanti, Xiaomeng Yang, Heng-tze Cheng, Demis Hassabis, Koray Kavukcuoglu, Quoc V. Le, Thang Luong
cs.AI
papers.abstract
Les récents progrès des modèles fondateurs ont donné naissance à des systèmes de raisonnement capables d'atteindre un niveau médaille d'or aux Olympiades Internationales de Mathématiques. Cependant, la transition entre la résolution de problèmes de niveau compétitif et la recherche professionnelle nécessite de naviguer dans une vaste littérature et de construire des preuves à long horizon. Dans ce travail, nous présentons Aletheia, un agent de recherche mathématique qui génère, vérifie et révise itérativement des solutions de bout en bout en langage naturel. Plus précisément, Aletheia est propulsé par une version avancée de Gemini Deep Think pour les problèmes de raisonnement complexes, une nouvelle loi d'échelle au moment de l'inférence qui va au-delà des problèmes de niveau Olympiade, et une utilisation intensive d'outils pour naviguer dans les complexités de la recherche mathématique. Nous démontrons les capacités d'Aletheia, des problèmes d'Olympiade aux exercices de niveau doctoral, et plus notablement, à travers plusieurs jalons distincts dans la recherche mathématique assistée par IA : (a) un article de recherche (Feng26) généré par l'IA sans aucune intervention humaine pour calculer certaines constantes structurelles en géométrie arithmétique appelées poids propres ; (b) un article de recherche (LeeSeo26) démontrant une collaboration humain-IA pour prouver des bornes sur des systèmes de particules en interaction appelés ensembles indépendants ; et (c) une évaluation semi-autonome extensive (Feng et al., 2026a) de 700 problèmes ouverts de la base de données des conjectures d'Erdos de Bloom, incluant des solutions autonomes à quatre questions ouvertes. Afin d'aider le public à mieux comprendre les développements liés à l'IA et aux mathématiques, nous suggérons de codifier des niveaux standard quantifiant l'autonomie et la nouveauté des résultats assistés par l'IA. Nous concluons par des réflexions sur la collaboration humain-IA en mathématiques.
English
Recent advances in foundational models have yielded reasoning systems capable of achieving a gold-medal standard at the International Mathematical Olympiad. The transition from competition-level problem-solving to professional research, however, requires navigating vast literature and constructing long-horizon proofs. In this work, we introduce Aletheia, a math research agent that iteratively generates, verifies, and revises solutions end-to-end in natural language. Specifically, Aletheia is powered by an advanced version of Gemini Deep Think for challenging reasoning problems, a novel inference-time scaling law that extends beyond Olympiad-level problems, and intensive tool use to navigate the complexities of mathematical research. We demonstrate the capability of Aletheia from Olympiad problems to PhD-level exercises and most notably, through several distinct milestones in AI-assisted mathematics research: (a) a research paper (Feng26) generated by AI without any human intervention in calculating certain structure constants in arithmetic geometry called eigenweights; (b) a research paper (LeeSeo26) demonstrating human-AI collaboration in proving bounds on systems of interacting particles called independent sets; and (c) an extensive semi-autonomous evaluation (Feng et al., 2026a) of 700 open problems on Bloom's Erdos Conjectures database, including autonomous solutions to four open questions. In order to help the public better understand the developments pertaining to AI and mathematics, we suggest codifying standard levels quantifying autonomy and novelty of AI-assisted results. We conclude with reflections on human-AI collaboration in mathematics.