Imparare a Scoprire al Momento del Test

Abstract

Come possiamo utilizzare l'IA per scoprire un nuovo stato dell'arte per un problema scientifico? I lavori precedenti sul ridimensionamento al momento del test, come AlphaEvolve, eseguono la ricerca interrogando un LLM congelato. Noi eseguiamo l'apprendimento per rinforzo al momento del test, in modo che l'LLM possa continuare ad addestrarsi, ma ora con esperienza specifica per il problema di test. Questa forma di apprendimento continuo è piuttosto speciale, perché il suo obiettivo è produrre una grande soluzione piuttosto che molte buone soluzioni in media, e risolvere proprio questo problema specifico piuttosto che generalizzare ad altri problemi. Pertanto, il nostro obiettivo di apprendimento e la subroutine di ricerca sono progettati per dare priorità alle soluzioni più promettenti. Chiamiamo questo metodo *Test-Time Training to Discover* (TTT-Discover). Seguendo i lavori precedenti, ci concentriamo su problemi con ricompense continue. Riportiamo i risultati per ogni problema affrontato, in ambiti come matematica, ingegneria di kernel GPU, progettazione di algoritmi e biologia. TTT-Discover stabilisce il nuovo stato dell'arte in quasi tutti: (i) il problema della minima sovrapposizione di Erdős e una disuguaglianza di autocorrelazione; (ii) una competizione di kernel GPUMode (fino a 2 volte più veloce dello stato dell'arte precedente); (iii) precedenti competizioni algoritmiche AtCoder; e (iv) problema di riduzione del rumore nell'analisi a cellula singola. Le nostre soluzioni sono state revisionate da esperti o dagli organizzatori. Tutti i nostri risultati sono ottenuti con un modello aperto, OpenAI gpt-oss-120b, e possono essere riprodotti con il nostro codice pubblicamente disponibile, a differenza dei migliori risultati precedenti che richiedevano modelli frontier chiusi. Le nostre esecuzioni di addestramento al momento del test sono eseguite utilizzando Tinker, un'API di Thinking Machines, con un costo di poche centinaia di dollari per problema.

English

How can we use AI to discover a new state of the art for a scientific problem? Prior work in test-time scaling, such as AlphaEvolve, performs search by prompting a frozen LLM. We perform reinforcement learning at test time, so the LLM can continue to train, but now with experience specific to the test problem. This form of continual learning is quite special, because its goal is to produce one great solution rather than many good ones on average, and to solve this very problem rather than generalize to other problems. Therefore, our learning objective and search subroutine are designed to prioritize the most promising solutions. We call this method Test-Time Training to Discover (TTT-Discover). Following prior work, we focus on problems with continuous rewards. We report results for every problem we attempted, across mathematics, GPU kernel engineering, algorithm design, and biology. TTT-Discover sets the new state of the art in almost all of them: (i) Erdős' minimum overlap problem and an autocorrelation inequality; (ii) a GPUMode kernel competition (up to 2times faster than prior art); (iii) past AtCoder algorithm competitions; and (iv) denoising problem in single-cell analysis. Our solutions are reviewed by experts or the organizers. All our results are achieved with an open model, OpenAI gpt-oss-120b, and can be reproduced with our publicly available code, in contrast to previous best results that required closed frontier models. Our test-time training runs are performed using Tinker, an API by Thinking Machines, with a cost of only a few hundred dollars per problem.

Imparare a Scoprire al Momento del Test

Learning to Discover at Test Time

Abstract

Support