Обучение открытию во время тестирования

Аннотация

Как можно использовать искусственный интеллект для достижения нового уровня состояния искусства в решении научной задачи? Предыдущие работы по масштабированию во время тестирования, такие как AlphaEvolve, выполняют поиск с помощью промптинг-запросов к замороженной большой языковой модели (LLM). Мы применяем обучение с подкреплением во время тестирования, что позволяет LLM продолжать обучение, но уже на основе опыта, специфичного для конкретной тестовой задачи. Эта форма непрерывного обучения весьма специфична, поскольку её цель — создать одно выдающееся решение, а не множество хороших в среднем, и решить именно данную задачу, а не обобщать на другие проблемы. Следовательно, наша цель обучения и процедура поиска разработаны так, чтобы отдавать приоритет наиболее перспективным решениям. Мы называем этот метод «Обучением во время тестирования для открытия» (Test-Time Training to Discover, TTT-Discover). В соответствии с предыдущими работами мы сосредотачиваемся на задачах с непрерывными вознаграждениями. Мы сообщаем результаты для каждой проблемы, которую мы attempted, в области математики, проектирования GPU-ядров, разработки алгоритмов и биологии. TTT-Discover устанавливает новое состояние искусства почти во всех из них: (i) задача Эрдёша о минимальном перекрытии и неравенство автокорреляции; (ii) соревнование по оптимизации ядер в GPUMode (до 2 раз быстрее предыдущих лучших результатов); (iii) прошлые соревнования по алгоритмам AtCoder; и (iv) задача шумоподавления в анализе одноклеточных данных. Наши решения проверяются экспертами или организаторами. Все наши результаты достигнуты с использованием открытой модели OpenAI gpt-oss-120b и могут быть воспроизведены с помощью нашего публично доступного кода, в отличие от предыдущих лучших результатов, которые требовали закрытых frontier-моделей. Наши запуски обучения во время тестирования выполняются с использованием Tinker, API от Thinking Machines, стоимостью всего в несколько сотен долларов за задачу.

English

How can we use AI to discover a new state of the art for a scientific problem? Prior work in test-time scaling, such as AlphaEvolve, performs search by prompting a frozen LLM. We perform reinforcement learning at test time, so the LLM can continue to train, but now with experience specific to the test problem. This form of continual learning is quite special, because its goal is to produce one great solution rather than many good ones on average, and to solve this very problem rather than generalize to other problems. Therefore, our learning objective and search subroutine are designed to prioritize the most promising solutions. We call this method Test-Time Training to Discover (TTT-Discover). Following prior work, we focus on problems with continuous rewards. We report results for every problem we attempted, across mathematics, GPU kernel engineering, algorithm design, and biology. TTT-Discover sets the new state of the art in almost all of them: (i) Erdős' minimum overlap problem and an autocorrelation inequality; (ii) a GPUMode kernel competition (up to 2times faster than prior art); (iii) past AtCoder algorithm competitions; and (iv) denoising problem in single-cell analysis. Our solutions are reviewed by experts or the organizers. All our results are achieved with an open model, OpenAI gpt-oss-120b, and can be reproduced with our publicly available code, in contrast to previous best results that required closed frontier models. Our test-time training runs are performed using Tinker, an API by Thinking Machines, with a cost of only a few hundred dollars per problem.

Обучение открытию во время тестирования

Learning to Discover at Test Time

Аннотация

Support