Lernen, zur Testzeit zu entdecken

Zusammenfassung

Wie können wir KI nutzen, um einen neuen State-of-the-Art für ein wissenschaftliches Problem zu entdecken? Bisherige Arbeiten zum Test-Time-Scaling, wie AlphaEvolve, führen die Suche durch, indem ein eingefrorenes LLM gepromptet wird. Wir setzen hingegen Reinforcement Learning zur Testzeit ein, sodass das LLM weiter trainieren kann – nun jedoch mit Erfahrungen, die spezifisch für das Testproblem sind. Diese Form des kontinuierlichen Lernens ist besonders, weil ihr Ziel ist, eine herausragende Lösung zu produzieren, anstatt durchschnittlich viele gute Lösungen, und genau dieses Problem zu lösen, anstatt auf andere Probleme zu verallgemeinern. Daher sind unser Lernziel und unsere Suchroutine darauf ausgelegt, die vielversprechendsten Lösungen zu priorisieren. Wir nennen diese Methode Test-Time Training to Discover (TTT-Discover). In Anlehnung an frühere Arbeiten konzentrieren wir uns auf Probleme mit kontinuierlichen Rewards. Wir berichten Ergebnisse für jedes Problem, das wir bearbeitet haben, aus den Bereichen Mathematik, GPU-Kernel-Engineering, Algorithmenentwurf und Biologie. TTT-Discover setzt in fast allen Bereichen einen neuen State-of-the-Art: (i) Erdős' Minimum-Overlap-Problem und eine Autokorrelationsungleichung; (ii) einen GPUMode-Kernel-Wettbewerb (bis zu 2-mal schneller als der vorherige Stand der Technik); (iii) vergangene AtCoder-Algorithmenwettbewerbe; und (iv) ein Rauschunterdrückungsproblem in der Einzelzellanalyse. Unsere Lösungen wurden von Experten oder den Organisatoren begutachtet. Alle unsere Ergebnisse wurden mit einem offenen Modell, OpenAI gpt-oss-120b, erzielt und sind mit unserem öffentlich verfügbaren Code reproduzierbar – im Gegensatz zu vorherigen Bestergebnissen, die geschlossene Frontier-Modelle erforderten. Unsere Test-Time-Training-Läufe wurden mit Tinker, einer API von Thinking Machines, durchgeführt, mit Kosten von nur wenigen hundert Dollar pro Problem.

English

How can we use AI to discover a new state of the art for a scientific problem? Prior work in test-time scaling, such as AlphaEvolve, performs search by prompting a frozen LLM. We perform reinforcement learning at test time, so the LLM can continue to train, but now with experience specific to the test problem. This form of continual learning is quite special, because its goal is to produce one great solution rather than many good ones on average, and to solve this very problem rather than generalize to other problems. Therefore, our learning objective and search subroutine are designed to prioritize the most promising solutions. We call this method Test-Time Training to Discover (TTT-Discover). Following prior work, we focus on problems with continuous rewards. We report results for every problem we attempted, across mathematics, GPU kernel engineering, algorithm design, and biology. TTT-Discover sets the new state of the art in almost all of them: (i) Erdős' minimum overlap problem and an autocorrelation inequality; (ii) a GPUMode kernel competition (up to 2times faster than prior art); (iii) past AtCoder algorithm competitions; and (iv) denoising problem in single-cell analysis. Our solutions are reviewed by experts or the organizers. All our results are achieved with an open model, OpenAI gpt-oss-120b, and can be reproduced with our publicly available code, in contrast to previous best results that required closed frontier models. Our test-time training runs are performed using Tinker, an API by Thinking Machines, with a cost of only a few hundred dollars per problem.

Lernen, zur Testzeit zu entdecken

Learning to Discover at Test Time

Zusammenfassung

Support