Алетейя автономно решает задачу FirstProof.
Aletheia tackles FirstProof autonomously
February 24, 2026
Авторы: Tony Feng, Junehyuk Jung, Sang-hyun Kim, Carlo Pagano, Sergei Gukov, Chiang-Chiang Tsai, David Woodruff, Adel Javanmard, Aryan Mokhtari, Dawsen Hwang, Yuri Chervonyi, Jonathan N. Lee, Garrett Bingham, Trieu H. Trinh, Vahab Mirrokni, Quoc V. Le, Thang Luong
cs.AI
Аннотация
Мы сообщаем о результатах работы Aletheia (Feng et al., 2026b) — агента для математических исследований, работающего на основе Gemini 3 Deep Think, — на первом соревновании FirstProof. В отведённые сроки Aletheia автономно решила 6 задач (2, 5, 7, 8, 9, 10) из 10 по оценке большинства экспертов; отметим, что мнения экспертов разделились только в отношении Задачи 8. В целях полной прозрачности мы поясняем нашу интерпретацию правил FirstProof, раскрываем детали наших экспериментов и процедуры оценки. Исходные промпты и выводы системы доступны по адресу https://github.com/google-deepmind/superhuman/tree/main/aletheia.
English
We report the performance of Aletheia (Feng et al., 2026b), a mathematics research agent powered by Gemini 3 Deep Think, on the inaugural FirstProof challenge. Within the allowed timeframe of the challenge, Aletheia autonomously solved 6 problems (2, 5, 7, 8, 9, 10) out of 10 according to majority expert assessments; we note that experts were not unanimous on Problem 8 (only). For full transparency, we explain our interpretation of FirstProof and disclose details about our experiments as well as our evaluation. Raw prompts and outputs are available at https://github.com/google-deepmind/superhuman/tree/main/aletheia.