Aprender a Descobrir no Momento do Teste

Resumo

Como podemos usar a IA para descobrir um novo estado da arte para um problema científico? Trabalhos anteriores em escalonamento no momento do teste, como o AlphaEvolve, realizam a busca através do *prompting* de um LLM congelado. Nós realizamos aprendizado por reforço no momento do teste, permitindo que o LLM continue a treinar, mas agora com experiência específica para o problema de teste. Esta forma de aprendizado contínuo é bastante especial, porque seu objetivo é produzir uma grande solução em vez de muitas boas soluções em média, e resolver este problema específico em vez de generalizar para outros problemas. Portanto, nossa função objetivo e nossa sub-rotina de busca são projetadas para priorizar as soluções mais promissoras. Chamamos este método de *Test-Time Training to Discover* (TTT-Discover). Seguindo trabalhos anteriores, focamos em problemas com recompensas contínuas. Relatamos resultados para todos os problemas que tentamos, abrangendo matemática, engenharia de *kernels* para GPU, projeto de algoritmos e biologia. O TTT-Discover estabelece o novo estado da arte em quase todos eles: (i) o problema de sobreposição mínima de Erdős e uma desigualdade de autocorrelação; (ii) uma competição de *kernels* GPUMode (até 2 vezes mais rápido que o estado da arte anterior); (iii) competições passadas de algoritmos AtCoder; e (iv) problema de remoção de ruído na análise de célula única. Nossas soluções são revisadas por especialistas ou pelos organizadores. Todos os nossos resultados são alcançados com um modelo aberto, o OpenAI gpt-oss-120b, e podem ser reproduzidos com nosso código publicamente disponível, em contraste com os melhores resultados anteriores que exigiam modelos *frontier* fechados. Nossas execuções de treinamento no momento do teste são realizadas usando o Tinker, uma API da Thinking Machines, com um custo de apenas algumas centenas de dólares por problema.

English

How can we use AI to discover a new state of the art for a scientific problem? Prior work in test-time scaling, such as AlphaEvolve, performs search by prompting a frozen LLM. We perform reinforcement learning at test time, so the LLM can continue to train, but now with experience specific to the test problem. This form of continual learning is quite special, because its goal is to produce one great solution rather than many good ones on average, and to solve this very problem rather than generalize to other problems. Therefore, our learning objective and search subroutine are designed to prioritize the most promising solutions. We call this method Test-Time Training to Discover (TTT-Discover). Following prior work, we focus on problems with continuous rewards. We report results for every problem we attempted, across mathematics, GPU kernel engineering, algorithm design, and biology. TTT-Discover sets the new state of the art in almost all of them: (i) Erdős' minimum overlap problem and an autocorrelation inequality; (ii) a GPUMode kernel competition (up to 2times faster than prior art); (iii) past AtCoder algorithm competitions; and (iv) denoising problem in single-cell analysis. Our solutions are reviewed by experts or the organizers. All our results are achieved with an open model, OpenAI gpt-oss-120b, and can be reproduced with our publicly available code, in contrast to previous best results that required closed frontier models. Our test-time training runs are performed using Tinker, an API by Thinking Machines, with a cost of only a few hundred dollars per problem.

Aprender a Descobrir no Momento do Teste

Learning to Discover at Test Time

Resumo

Support