Aprender a descubrir en el momento de la prueba

Resumen

¿Cómo podemos utilizar la IA para descubrir un nuevo estado del arte en un problema científico? Trabajos previos en escalado en tiempo de prueba, como AlphaEvolve, realizan búsquedas mediante *prompts* a un modelo de lenguaje grande (LLM) congelado. Nosotros realizamos aprendizaje por refuerzo en tiempo de prueba, de modo que el LLM puede continuar entrenándose, pero ahora con experiencia específica del problema de prueba. Esta forma de aprendizaje continuo es bastante especial, porque su objetivo es producir una gran solución en lugar de muchas buenas en promedio, y resolver este problema concreto en lugar de generalizar a otros. Por lo tanto, nuestro objetivo de aprendizaje y nuestra subrutina de búsqueda están diseñados para priorizar las soluciones más prometedoras. Llamamos a este método Entrenamiento en Tiempo de Prueba para Descubrir (TTT-Discover). Siguiendo trabajos anteriores, nos centramos en problemas con recompensas continuas. Reportamos resultados para cada problema que intentamos, en matemáticas, ingeniería de *kernels* para GPU, diseño de algoritmos y biología. TTT-Discover establece el nuevo estado del arte en casi todos ellos: (i) el problema del mínimo solapamiento de Erdős y una desigualdad de autocorrelación; (ii) una competición de *kernels* GPUMode (hasta 2 veces más rápido que el estado del arte anterior); (iii) competiciones pasadas de algoritmos AtCoder; y (iv) un problema de eliminación de ruido en análisis de célula única. Nuestras soluciones son revisadas por expertos o los organizadores. Todos nuestros resultados se logran con un modelo abierto, OpenAI gpt-oss-120b, y pueden reproducirse con nuestro código disponible públicamente, a diferencia de los mejores resultados anteriores que requerían modelos frontera cerrados. Nuestras ejecuciones de entrenamiento en tiempo de prueba se realizan utilizando Tinker, una API de Thinking Machines, con un coste de solo unos pocos cientos de dólares por problema.

English

How can we use AI to discover a new state of the art for a scientific problem? Prior work in test-time scaling, such as AlphaEvolve, performs search by prompting a frozen LLM. We perform reinforcement learning at test time, so the LLM can continue to train, but now with experience specific to the test problem. This form of continual learning is quite special, because its goal is to produce one great solution rather than many good ones on average, and to solve this very problem rather than generalize to other problems. Therefore, our learning objective and search subroutine are designed to prioritize the most promising solutions. We call this method Test-Time Training to Discover (TTT-Discover). Following prior work, we focus on problems with continuous rewards. We report results for every problem we attempted, across mathematics, GPU kernel engineering, algorithm design, and biology. TTT-Discover sets the new state of the art in almost all of them: (i) Erdős' minimum overlap problem and an autocorrelation inequality; (ii) a GPUMode kernel competition (up to 2times faster than prior art); (iii) past AtCoder algorithm competitions; and (iv) denoising problem in single-cell analysis. Our solutions are reviewed by experts or the organizers. All our results are achieved with an open model, OpenAI gpt-oss-120b, and can be reproduced with our publicly available code, in contrast to previous best results that required closed frontier models. Our test-time training runs are performed using Tinker, an API by Thinking Machines, with a cost of only a few hundred dollars per problem.