Verso la Ricerca Matematica Autonoma
Towards Autonomous Mathematics Research
February 10, 2026
Autori: Tony Feng, Trieu H. Trinh, Garrett Bingham, Dawsen Hwang, Yuri Chervonyi, Junehyuk Jung, Joonkyung Lee, Carlo Pagano, Sang-hyun Kim, Federico Pasqualotto, Sergei Gukov, Jonathan N. Lee, Junsu Kim, Kaiying Hou, Golnaz Ghiasi, Yi Tay, YaGuang Li, Chenkai Kuang, Yuan Liu, Hanzhao, Lin, Evan Zheran Liu, Nigamaa Nayakanti, Xiaomeng Yang, Heng-tze Cheng, Demis Hassabis, Koray Kavukcuoglu, Quoc V. Le, Thang Luong
cs.AI
Abstract
I recenti progressi nei modelli di base hanno prodotto sistemi di ragionamento in grado di raggiungere uno standard da medaglia d'oro alle Olimpiadi Internazionali della Matematica. La transizione dalla risoluzione di problemi a livello competitivo alla ricerca professionale, tuttavia, richiede di districarsi in una vasta letteratura e di costruire dimostrazioni a lungo orizzonte. In questo lavoro, introduciamo Aletheia, un agente per la ricerca matematica che genera, verifica e revisiona iterativamente soluzioni end-to-end in linguaggio naturale. Nello specifico, Aletheia è supportato da una versione avanzata di Gemini Deep Think per problemi di ragionamento complessi, da una nuova legge di scaling al tempo di inferenza che si estende oltre i problemi di livello olimpico, e da un uso intensivo di strumenti per navigare le complessità della ricerca matematica. Dimostriamo le capacità di Aletheia da problemi olimpici ad esercizi di livello dottorato e, in modo più significativo, attraverso diversi traguardi distinti nella ricerca matematica assistita dall'IA: (a) un articolo di ricerca (Feng26) generato dall'IA senza alcun intervento umano nel calcolo di certe costanti strutturali in geometria aritmetica chiamate autopesi; (b) un articolo di ricerca (LeeSeo26) che dimostra una collaborazione umano-IA nel dimostrare limiti per sistemi di particelle interagenti chiamati insiemi indipendenti; e (c) una valutazione semi-autonoma estensiva (Feng et al., 2026a) di 700 problemi aperti sul database delle Congetture di Erdos di Bloom, incluse soluzioni autonome a quattro questioni aperte. Al fine di aiutare il pubblico a comprendere meglio gli sviluppi relativi all'IA e alla matematica, suggeriamo di codificare livelli standard che quantifichino l'autonomia e la novità dei risultati ottenuti con l'assistenza dell'IA. Concludiamo con riflessioni sulla collaborazione umano-IA in matematica.
English
Recent advances in foundational models have yielded reasoning systems capable of achieving a gold-medal standard at the International Mathematical Olympiad. The transition from competition-level problem-solving to professional research, however, requires navigating vast literature and constructing long-horizon proofs. In this work, we introduce Aletheia, a math research agent that iteratively generates, verifies, and revises solutions end-to-end in natural language. Specifically, Aletheia is powered by an advanced version of Gemini Deep Think for challenging reasoning problems, a novel inference-time scaling law that extends beyond Olympiad-level problems, and intensive tool use to navigate the complexities of mathematical research. We demonstrate the capability of Aletheia from Olympiad problems to PhD-level exercises and most notably, through several distinct milestones in AI-assisted mathematics research: (a) a research paper (Feng26) generated by AI without any human intervention in calculating certain structure constants in arithmetic geometry called eigenweights; (b) a research paper (LeeSeo26) demonstrating human-AI collaboration in proving bounds on systems of interacting particles called independent sets; and (c) an extensive semi-autonomous evaluation (Feng et al., 2026a) of 700 open problems on Bloom's Erdos Conjectures database, including autonomous solutions to four open questions. In order to help the public better understand the developments pertaining to AI and mathematics, we suggest codifying standard levels quantifying autonomy and novelty of AI-assisted results. We conclude with reflections on human-AI collaboration in mathematics.