Verrassingsgeleide Selectie: Rekenoptimale Testtijdstrategieën voor Uitvoering-Gegronde Codegeneratie

Samenvatting

Test-time training (TTT) past taalmodellen aan door middel van op gradienten gebaseerde updates tijdens de inferentiefase. Maar is aanpassing wel de juiste strategie? Wij bestuderen compute-optimale test-time strategieën voor verifieerbare, op uitvoering gegronde (VEG) taken, domeinen zoals GPU-kerneloptimalisatie waarbij een deterministische evaluator dichte, continue beloningssignalen verschaft. Met KernelBench als onze testomgeving en een 120B-parameter model (GPT-OSS-120B met LoRA-aanpassing) constateren we dat zoeken superieur is aan minimale aanpassing (1-5 gradientstappen): Best-of-N bemonstering behaalt 90% taaksucces (18/20 taken) bij K=64 over de volledige KernelBench L1-evaluatieset, terwijl het beste checkpoint van TTT slechts 30,6% bereikt (gemiddelde over 3 seeds), waarbij de "equivalente K" van TTT onder de 1 valt, slechter dan inferentie met één steekproef. De faalmodus is over-scherping: gradient-updates doen de diversiteit instorten naar middelmatige oplossingen in plaats van optimale te ontdekken. Onze belangrijkste bijdrage is verrassingsgeleide selectie: het selecteren van de meest verrassende (minst zelfverzekerde) correcte steekproef levert 80% succes op versus 50% voor de meest zelfverzekerde selectie, een verbetering van 30%. Uitbreiding naar verrassingsgeleide-top3 evenaart de orakelprestatie met 100%. Deze nul-kosten strategie, gevalideerd door lengte-gecontroleerde analyse, herstelt de orakelprestatie. Voor VEG-taken met dichte beloningen moet rekencapaciteit worden toegewezen aan steekproefdiversiteit en intelligente selectie in plaats van aan gradientaanpassing. Het verrassingsgeleide selectieprincipe kan generaliseren naar andere op uitvoering gegronde domeinen waar optimale oplossingen in de staart van de verdeling liggen.

English

Test-time training (TTT) adapts language models through gradient-based updates at inference. But is adaptation the right strategy? We study compute-optimal test-time strategies for verifiable execution-grounded (VEG) tasks, domains like GPU kernel optimization where a deterministic evaluator provides dense, continuous reward signals. Using KernelBench as our testbed and a 120B-parameter model (GPT-OSS-120B with LoRA adaptation), we find that search outperforms minimal adaptation (1-5 gradient steps): Best-of-N sampling achieves 90% task success (18/20 tasks) at K=64 across the full KernelBench L1 eval set while TTT's best checkpoint reaches only 30.6% (3-seed mean), with TTT's "equivalent K" falling below 1, worse than single-sample inference. The failure mode is over-sharpening: gradient updates collapse diversity toward mediocre solutions rather than discovering optimal ones. Our main contribution is surprisal-guided selection: selecting the highest-surprisal (lowest-confidence) correct sample yields 80% success vs. 50% for most-confident selection, a 30% improvement. Extending to surprisal-guided-top3 matches oracle performance at 100%. This zero-cost strategy, validated through length-controlled analysis, recovers oracle performance. For dense-reward VEG tasks, compute should be allocated to sample diversity and intelligent selection rather than gradient adaptation. The surprisal-guided selection principle may generalize to other execution-grounded domains where optimal solutions occupy the distribution tail.

Verrassingsgeleide Selectie: Rekenoptimale Testtijdstrategieën voor Uitvoering-Gegronde Codegeneratie

Surprisal-Guided Selection: Compute-Optimal Test-Time Strategies for Execution-Grounded Code Generation

Samenvatting

Support