Rumo à Pesquisa Matemática Autônoma

Resumo

Avanços recentes em modelos de base produziram sistemas de raciocínio capazes de alcançar um padrão de medalha de ouro na Olimpíada Internacional de Matemática. A transição da resolução de problemas de nível competitivo para a pesquisa profissional, no entanto, requer navegar por uma vasta literatura e construir provas de longo horizonte. Neste trabalho, introduzimos Aletheia, um agente de pesquisa matemática que gera, verifica e revisa soluções iterativamente de forma integral em linguagem natural. Especificamente, Aletheia é impulsionado por uma versão avançada do Gemini Deep Think para problemas de raciocínio desafiadores, uma nova lei de escalonamento no tempo de inferência que se estende para além de problemas de nível olímpico, e uso intensivo de ferramentas para navegar pelas complexidades da pesquisa matemática. Demonstramos a capacidade do Aletheia desde problemas olímpicos até exercícios de nível de doutorado e, mais notavelmente, através de vários marcos distintos na pesquisa matemática assistida por IA: (a) um artigo de pesquisa (Feng26) gerado por IA sem qualquer intervenção humana no cálculo de certas constantes de estrutura em geometria aritmética chamadas eigenweights; (b) um artigo de pesquisa (LeeSeo26) demonstrando colaboração humano-IA na prova de limites para sistemas de partículas interagentes chamados conjuntos independentes; e (c) uma avaliação semi-autónoma extensiva (Feng et al., 2026a) de 700 problemas em aberto na base de dados Bloom's Erdos Conjectures, incluindo soluções autónomas para quatro questões em aberto. Para ajudar o público a compreender melhor os desenvolvimentos relativos à IA e à matemática, sugerimos codificar níveis padrão que quantifiquem a autonomia e a novidade dos resultados assistidos por IA. Concluímos com reflexões sobre a colaboração humano-IA em matemática.

English

Recent advances in foundational models have yielded reasoning systems capable of achieving a gold-medal standard at the International Mathematical Olympiad. The transition from competition-level problem-solving to professional research, however, requires navigating vast literature and constructing long-horizon proofs. In this work, we introduce Aletheia, a math research agent that iteratively generates, verifies, and revises solutions end-to-end in natural language. Specifically, Aletheia is powered by an advanced version of Gemini Deep Think for challenging reasoning problems, a novel inference-time scaling law that extends beyond Olympiad-level problems, and intensive tool use to navigate the complexities of mathematical research. We demonstrate the capability of Aletheia from Olympiad problems to PhD-level exercises and most notably, through several distinct milestones in AI-assisted mathematics research: (a) a research paper (Feng26) generated by AI without any human intervention in calculating certain structure constants in arithmetic geometry called eigenweights; (b) a research paper (LeeSeo26) demonstrating human-AI collaboration in proving bounds on systems of interacting particles called independent sets; and (c) an extensive semi-autonomous evaluation (Feng et al., 2026a) of 700 open problems on Bloom's Erdos Conjectures database, including autonomous solutions to four open questions. In order to help the public better understand the developments pertaining to AI and mathematics, we suggest codifying standard levels quantifying autonomy and novelty of AI-assisted results. We conclude with reflections on human-AI collaboration in mathematics.