Apprendre à découvrir au moment du test

papers.abstract

Comment pouvons-nous utiliser l'IA pour découvrir un nouvel état de l'art pour un problème scientifique ? Les travaux antérieurs sur l'adaptation au moment du test, comme AlphaEvolve, effectuent une recherche en sollicitant un grand modèle de langage (LLM) figé. Nous réalisons un apprentissage par renforcement au moment du test, permettant au LLM de continuer à s'entraîner, mais cette fois avec une expérience spécifique au problème testé. Cette forme d'apprentissage continu est particulière, car son objectif est de produire une excellente solution plutôt que plusieurs bonnes solutions en moyenne, et de résoudre ce problème précis plutôt que de généraliser à d'autres problèmes. Par conséquent, notre objectif d'apprentissage et notre sous-programme de recherche sont conçus pour prioriser les solutions les plus prometteuses. Nous appelons cette méthode « Entraînement au moment du test pour la découverte » (TTT-Discover). Conformément aux travaux antérieurs, nous nous concentrons sur les problèmes avec des récompenses continues. Nous rapportons les résultats pour chaque problème abordé, couvrant les mathématiques, l'ingénierie de noyaux GPU, la conception d'algorithmes et la biologie. TTT-Discover établit le nouvel état de l'art dans presque tous ces domaines : (i) le problème de recouvrement minimum d'Erdős et une inégalité d'autocorrélation ; (ii) une compétition de noyaux GPUMode (jusqu'à 2 fois plus rapide que l'état de l'art précédent) ; (iii) d'anciennes compétitions d'algorithmes AtCoder ; et (iv) un problème de débruitage dans l'analyse unicellulaire. Nos solutions sont examinées par des experts ou les organisateurs. Tous nos résultats sont obtenus avec un modèle ouvert, OpenAI gpt-oss-120b, et peuvent être reproduits avec notre code public, contrairement aux meilleurs résultats précédents qui nécessitaient des modèles fermés de pointe. Nos entraînements au moment du test sont effectués en utilisant Tinker, une API de Thinking Machines, pour un coût de seulement quelques centaines de dollars par problème.

English

How can we use AI to discover a new state of the art for a scientific problem? Prior work in test-time scaling, such as AlphaEvolve, performs search by prompting a frozen LLM. We perform reinforcement learning at test time, so the LLM can continue to train, but now with experience specific to the test problem. This form of continual learning is quite special, because its goal is to produce one great solution rather than many good ones on average, and to solve this very problem rather than generalize to other problems. Therefore, our learning objective and search subroutine are designed to prioritize the most promising solutions. We call this method Test-Time Training to Discover (TTT-Discover). Following prior work, we focus on problems with continuous rewards. We report results for every problem we attempted, across mathematics, GPU kernel engineering, algorithm design, and biology. TTT-Discover sets the new state of the art in almost all of them: (i) Erdős' minimum overlap problem and an autocorrelation inequality; (ii) a GPUMode kernel competition (up to 2times faster than prior art); (iii) past AtCoder algorithm competitions; and (iv) denoising problem in single-cell analysis. Our solutions are reviewed by experts or the organizers. All our results are achieved with an open model, OpenAI gpt-oss-120b, and can be reproduced with our publicly available code, in contrast to previous best results that required closed frontier models. Our test-time training runs are performed using Tinker, an API by Thinking Machines, with a cost of only a few hundred dollars per problem.

Apprendre à découvrir au moment du test

Learning to Discover at Test Time

papers.abstract

Support