Leren ontdekken tijdens de testfase

Samenvatting

Hoe kunnen we AI gebruiken om een nieuwe state-of-the-art voor een wetenschappelijk probleem te ontdekken? Eerder werk op het gebied van test-time scaling, zoals AlphaEvolve, voert zoekopdrachten uit door een bevroren LLM te 'prompten'. Wij passen reinforcement learning toe tijdens de testfase, zodat het LLM kan blijven trainen, maar nu met ervaring die specifiek is voor het testprobleem. Deze vorm van continu leren is bijzonder, omdat het doel is om één excellente oplossing te produceren in plaats van gemiddeld veel goede, en om dit specifieke probleem op te lossen in plaats van te generaliseren naar andere problemen. Daarom zijn onze leerdoelstelling en zoeksubroutine ontworpen om de meest veelbelovende oplossingen te prioriteren. We noemen deze methode Test-Time Training to Discover (TTT-Discover). In navolging van eerder werk richten we ons op problemen met continue beloningen. We rapporteren resultaten voor elk probleem dat we hebben geprobeerd, binnen wiskunde, GPU-kernelengineering, algoritme-ontwerp en biologie. TTT-Discover vestigt de nieuwe state-of-the-art in bijna alle gevallen: (i) Erdős' minimum overlap-probleem en een autocorrelatie-ongelijkheid; (ii) een GPUMode kernelwedstrijd (tot 2x sneller dan de vorige state-of-the-art); (iii) eerdere AtCoder algoritmewedstrijden; en (iv) een denoising-probleem in single-cell analyse. Onze oplossingen worden beoordeeld door experts of de organisatoren. Al onze resultaten worden behaald met een open model, OpenAI gpt-oss-120b, en zijn reproduceerbaar met onze publiek beschikbare code, in tegenstelling tot eerdere beste resultaten die gesloten frontier-modellen vereisten. Onze test-time training runs worden uitgevoerd met Tinker, een API van Thinking Machines, tegen een kostprijs van slechts enkele honderden dollars per probleem.

English

How can we use AI to discover a new state of the art for a scientific problem? Prior work in test-time scaling, such as AlphaEvolve, performs search by prompting a frozen LLM. We perform reinforcement learning at test time, so the LLM can continue to train, but now with experience specific to the test problem. This form of continual learning is quite special, because its goal is to produce one great solution rather than many good ones on average, and to solve this very problem rather than generalize to other problems. Therefore, our learning objective and search subroutine are designed to prioritize the most promising solutions. We call this method Test-Time Training to Discover (TTT-Discover). Following prior work, we focus on problems with continuous rewards. We report results for every problem we attempted, across mathematics, GPU kernel engineering, algorithm design, and biology. TTT-Discover sets the new state of the art in almost all of them: (i) Erdős' minimum overlap problem and an autocorrelation inequality; (ii) a GPUMode kernel competition (up to 2times faster than prior art); (iii) past AtCoder algorithm competitions; and (iv) denoising problem in single-cell analysis. Our solutions are reviewed by experts or the organizers. All our results are achieved with an open model, OpenAI gpt-oss-120b, and can be reproduced with our publicly available code, in contrast to previous best results that required closed frontier models. Our test-time training runs are performed using Tinker, an API by Thinking Machines, with a cost of only a few hundred dollars per problem.

Leren ontdekken tijdens de testfase

Learning to Discover at Test Time

Samenvatting

Support