Hacia la Investigación Matemática Autónoma
Towards Autonomous Mathematics Research
February 10, 2026
Autores: Tony Feng, Trieu H. Trinh, Garrett Bingham, Dawsen Hwang, Yuri Chervonyi, Junehyuk Jung, Joonkyung Lee, Carlo Pagano, Sang-hyun Kim, Federico Pasqualotto, Sergei Gukov, Jonathan N. Lee, Junsu Kim, Kaiying Hou, Golnaz Ghiasi, Yi Tay, YaGuang Li, Chenkai Kuang, Yuan Liu, Hanzhao, Lin, Evan Zheran Liu, Nigamaa Nayakanti, Xiaomeng Yang, Heng-tze Cheng, Demis Hassabis, Koray Kavukcuoglu, Quoc V. Le, Thang Luong
cs.AI
Resumen
Los recientes avances en modelos fundacionales han producido sistemas de razonamiento capaces de alcanzar un estándar de medalla de oro en la Olimpiada Internacional de Matemáticas. Sin embargo, la transición de la resolución de problemas a nivel competitivo a la investigación profesional requiere navegar por una vasta literatura y construir demostraciones de largo alcance. En este trabajo, presentamos a Aletheia, un agente de investigación matemática que genera, verifica y revisa soluciones de forma iterativa y end-to-end en lenguaje natural. Específicamente, Aletheia está impulsado por una versión avanzada de Gemini Deep Think para problemas de razonamiento complejos, una novedosa ley de escalado en tiempo de inferencia que se extiende más allá de los problemas de nivel olímpico, y un uso intensivo de herramientas para navegar las complejidades de la investigación matemática. Demostramos la capacidad de Aletheia desde problemas olímpicos hasta ejercicios de nivel doctoral y, de manera más notable, a través de varios hitos distintos en la investigación matemática asistida por IA: (a) un artículo de investigación (Feng26) generado por IA sin ninguna intervención humana para calcular ciertas constantes estructurales en geometría aritmética llamadas eigenpesos; (b) un artículo de investigación (LeeSeo26) que demuestra la colaboración humano-IA para probar cotas en sistemas de partículas interactuantes llamados conjuntos independientes; y (c) una evaluación semi-autónoma extensiva (Feng et al., 2026a) de 700 problemas abiertos en la base de datos de las Conjeturas de Erdős de Bloom, incluyendo soluciones autónomas a cuatro preguntas abiertas. Para ayudar al público a comprender mejor los desarrollos relacionados con la IA y las matemáticas, sugerimos codificar niveles estándar que cuantifiquen la autonomía y la novedad de los resultados asistidos por IA. Concluimos con reflexiones sobre la colaboración humano-IA en matemáticas.
English
Recent advances in foundational models have yielded reasoning systems capable of achieving a gold-medal standard at the International Mathematical Olympiad. The transition from competition-level problem-solving to professional research, however, requires navigating vast literature and constructing long-horizon proofs. In this work, we introduce Aletheia, a math research agent that iteratively generates, verifies, and revises solutions end-to-end in natural language. Specifically, Aletheia is powered by an advanced version of Gemini Deep Think for challenging reasoning problems, a novel inference-time scaling law that extends beyond Olympiad-level problems, and intensive tool use to navigate the complexities of mathematical research. We demonstrate the capability of Aletheia from Olympiad problems to PhD-level exercises and most notably, through several distinct milestones in AI-assisted mathematics research: (a) a research paper (Feng26) generated by AI without any human intervention in calculating certain structure constants in arithmetic geometry called eigenweights; (b) a research paper (LeeSeo26) demonstrating human-AI collaboration in proving bounds on systems of interacting particles called independent sets; and (c) an extensive semi-autonomous evaluation (Feng et al., 2026a) of 700 open problems on Bloom's Erdos Conjectures database, including autonomous solutions to four open questions. In order to help the public better understand the developments pertaining to AI and mathematics, we suggest codifying standard levels quantifying autonomy and novelty of AI-assisted results. We conclude with reflections on human-AI collaboration in mathematics.