ChatPaper.aiChatPaper

Auf dem Weg zur autonomen mathematischen Forschung

Towards Autonomous Mathematics Research

February 10, 2026
papers.authors: Tony Feng, Trieu H. Trinh, Garrett Bingham, Dawsen Hwang, Yuri Chervonyi, Junehyuk Jung, Joonkyung Lee, Carlo Pagano, Sang-hyun Kim, Federico Pasqualotto, Sergei Gukov, Jonathan N. Lee, Junsu Kim, Kaiying Hou, Golnaz Ghiasi, Yi Tay, YaGuang Li, Chenkai Kuang, Yuan Liu, Hanzhao, Lin, Evan Zheran Liu, Nigamaa Nayakanti, Xiaomeng Yang, Heng-tze Cheng, Demis Hassabis, Koray Kavukcuoglu, Quoc V. Le, Thang Luong
cs.AI

papers.abstract

Jüngste Fortschritte bei Fundamentalen Modellen haben zu Denksystemen geführt, die auf dem Niveau einer Goldmedaille bei der Internationalen Mathematik-Olympiade operieren können. Der Übergang vom wettbewerbsorientierten Problemlösen zur professionellen Forschung erfordert jedoch die Navigation durch umfangreiche Literatur und die Konstruktion langfristiger Beweise. In dieser Arbeit stellen wir Aletheia vor, einen mathematischen Forschungsagenten, der iterativ Lösungen end-to-end in natürlicher Sprache generiert, verifiziert und überarbeitet. Konkret wird Aletheia von einer fortschrittlichen Version von Gemini Deep Think für anspruchsvolle Denkprobleme angetrieben, einem neuartigen Skalierungsgesetz zur Inferenzzeit, das über Olympiade-Niveau hinausgeht, sowie intensivem Werkzeugeinsatz, um die Komplexitäten mathematischer Forschung zu bewältigen. Wir demonstrieren die Fähigkeiten von Aletheia anhand von Olympiade-Problemen bis hin zu Promotionsübungen und insbesondere durch mehrere Meilensteine der KI-gestützten mathematischen Forschung: (a) ein Forschungsartikel (Feng26), der vollständig ohne menschliches Eingreifen von einer KI generiert wurde, um bestimmte Strukturkonstanten in der arithmetischen Geometrie, sogenannte Eigengewichte, zu berechnen; (b) ein Forschungsartikel (LeeSeo26), der die Mensch-KI-Kollaboration beim Beweis von Schranken für Systeme wechselwirkender Teilchen, sogenannte unabhängige Mengen, demonstriert; und (c) eine umfangreiche semi-autonome Evaluation (Feng et al., 2026a) von 700 offenen Problemen in Bloom's Erdos Conjectures Database, einschließlich autonomer Lösungen für vier offene Fragen. Um der Öffentlichkeit ein besseres Verständnis der Entwicklungen im Bereich KI und Mathematik zu ermöglichen, schlagen wir vor, Standardstufen zur Quantifizierung von Autonomie und Neuheit KI-gestützter Ergebnisse zu kodifizieren. Wir schließen mit Reflexionen über die Mensch-KI-Kollaboration in der Mathematik.
English
Recent advances in foundational models have yielded reasoning systems capable of achieving a gold-medal standard at the International Mathematical Olympiad. The transition from competition-level problem-solving to professional research, however, requires navigating vast literature and constructing long-horizon proofs. In this work, we introduce Aletheia, a math research agent that iteratively generates, verifies, and revises solutions end-to-end in natural language. Specifically, Aletheia is powered by an advanced version of Gemini Deep Think for challenging reasoning problems, a novel inference-time scaling law that extends beyond Olympiad-level problems, and intensive tool use to navigate the complexities of mathematical research. We demonstrate the capability of Aletheia from Olympiad problems to PhD-level exercises and most notably, through several distinct milestones in AI-assisted mathematics research: (a) a research paper (Feng26) generated by AI without any human intervention in calculating certain structure constants in arithmetic geometry called eigenweights; (b) a research paper (LeeSeo26) demonstrating human-AI collaboration in proving bounds on systems of interacting particles called independent sets; and (c) an extensive semi-autonomous evaluation (Feng et al., 2026a) of 700 open problems on Bloom's Erdos Conjectures database, including autonomous solutions to four open questions. In order to help the public better understand the developments pertaining to AI and mathematics, we suggest codifying standard levels quantifying autonomy and novelty of AI-assisted results. We conclude with reflections on human-AI collaboration in mathematics.
PDF240February 13, 2026