TEMPO: Schaalvergroting van testtijd-training voor grote redeneermodellen

Samenvatting

Test-time training (TTT) past modelparameters aan op ongelabelde testinstanties tijdens de inferentiefase, waardoor de capaciteiten continu worden uitgebreid voorbij de reikwijdte van offline training. Ondanks initiële winst bereiken bestaande TTT-methoden voor LRMs snel een plateau en profiteren ze niet van extra rekenkracht tijdens de testfase. Zonder externe kalibratie drijft het zelfgegenereerde beloningssignaal steeds verder af naarmate het beleidsmodel evolueert, wat leidt tot zowel prestatieplateaus als diversiteitscollaps. Wij stellen TEMPO voor, een TTT-raamwerk dat policyverfijning op ongelabelde vragen afwisselt met periodieke herkalibratie van de critic op een gelabelde dataset. Door deze afwisselende procedure te formaliseren via het Expectation-Maximization (EM)-algoritme, tonen we aan dat eerdere methoden kunnen worden geïnterpreteerd als onvolledige varianten die de cruciale herkalibratiestap weglaten. Het opnieuw introduceren van deze stap versterkt de evidence lower bound (ELBO) en maakt aanhoudende verbetering mogelijk. Over diverse modelfamilies (Qwen3 en OLMO3) en redeneertaken heen verbetert TEMPO OLMO3-7B op AIME 2024 van 33,0% naar 51,1% en Qwen3-14B van 42,3% naar 65,8%, waarbij een hoge diversiteit behouden blijft.

English

Test-time training (TTT) adapts model parameters on unlabeled test instances during inference time, which continuously extends capabilities beyond the reach of offline training. Despite initial gains, existing TTT methods for LRMs plateau quickly and do not benefit from additional test-time compute. Without external calibration, the self-generated reward signal increasingly drifts as the policy model evolves, leading to both performance plateaus and diversity collapse. We propose TEMPO, a TTT framework that interleaves policy refinement on unlabeled questions with periodic critic recalibration on a labeled dataset. By formalizing this alternating procedure through the Expectation-Maximization (EM) algorithm, we reveal that prior methods can be interpreted as incomplete variants that omit the crucial recalibration step. Reintroducing this step tightens the evidence lower bound (ELBO) and enables sustained improvement. Across diverse model families (Qwen3 and OLMO3) and reasoning tasks, TEMPO improves OLMO3-7B on AIME 2024 from 33.0% to 51.1% and Qwen3-14B from 42.3% to 65.8%, while maintaining high diversity.

TEMPO: Schaalvergroting van testtijd-training voor grote redeneermodellen

TEMPO: Scaling Test-time Training for Large Reasoning Models

Samenvatting

Support