Überraschungsgesteuerte Auswahl: Rechenoptimale Testzeit-Strategien für ausführungsbasiertes Code-Generieren

papers.abstract

Test-Time Training (TTT) passt Sprachmodelle durch gradientenbasierte Updates während der Inferenz an. Doch ist Anpassung die richtige Strategie? Wir untersuchen rechenoptimale Testzeit-Strategien für verifizierbare, ausführungsbasierte (VEG) Aufgaben – Domänen wie die GPU-Kernel-Optimierung, in denen ein deterministischer Evaluator dichte, kontinuierliche Belohnungssignale liefert. Unter Verwendung von KernelBench als Testumgebung und eines 120-Milliarden-Parameter-Modells (GPT-OSS-120B mit LoRA-Adaption) stellen wir fest, dass Suche minimale Anpassung (1-5 Gradientenschritte) übertrifft: Best-of-N-Sampling erreicht 90 % Aufgabenerfolg (18/20 Aufgaben) bei K=64 über den gesamten KernelBench L1-Evaluierungssatz, während der beste Checkpoint von TTT nur 30,6 % erreicht (Mittelwert über 3 Seeds), wobei das "äquivalente K" von TTT unter 1 fällt – schlechter als die Inferenz mit einer einzelnen Stichprobe. Der Fehlermodus ist Over-Sharpening: Gradienten-Updates reduzieren die Diversität hin zu mittelmäßigen Lösungen, anstatt optimale zu entdecken. Unser Hauptbeitrag ist die surprisal-gesteuerte Auswahl: Die Auswahl der Stichprobe mit der höchsten Surprisal (geringsten Konfidenz), die korrekt ist, erzielt 80 % Erfolg gegenüber 50 % bei der Auswahl der konfidentesten Stichprobe, eine Verbesserung um 30 %. Die Erweiterung auf die Top-3-Auswahl nach Surprisal erreicht Oracle-Leistung bei 100 %. Diese kostenlose Strategie, validiert durch eine längenkontrollierte Analyse, stellt die Oracle-Leistung wieder her. Für VEG-Aufgaben mit dichter Belohnung sollte Rechenaufwand für Stichprobenvielfalt und intelligente Auswahl statt für gradientenbasierte Anpassung verwendet werden. Das Prinzip der surprisal-gesteuerten Auswahl könnte sich auf andere ausführungsbasierte Domänen verallgemeinern lassen, in denen optimale Lösungen im Verteilungsende liegen.

English

Test-time training (TTT) adapts language models through gradient-based updates at inference. But is adaptation the right strategy? We study compute-optimal test-time strategies for verifiable execution-grounded (VEG) tasks, domains like GPU kernel optimization where a deterministic evaluator provides dense, continuous reward signals. Using KernelBench as our testbed and a 120B-parameter model (GPT-OSS-120B with LoRA adaptation), we find that search outperforms minimal adaptation (1-5 gradient steps): Best-of-N sampling achieves 90% task success (18/20 tasks) at K=64 across the full KernelBench L1 eval set while TTT's best checkpoint reaches only 30.6% (3-seed mean), with TTT's "equivalent K" falling below 1, worse than single-sample inference. The failure mode is over-sharpening: gradient updates collapse diversity toward mediocre solutions rather than discovering optimal ones. Our main contribution is surprisal-guided selection: selecting the highest-surprisal (lowest-confidence) correct sample yields 80% success vs. 50% for most-confident selection, a 30% improvement. Extending to surprisal-guided-top3 matches oracle performance at 100%. This zero-cost strategy, validated through length-controlled analysis, recovers oracle performance. For dense-reward VEG tasks, compute should be allocated to sample diversity and intelligent selection rather than gradient adaptation. The surprisal-guided selection principle may generalize to other execution-grounded domains where optimal solutions occupy the distribution tail.

Überraschungsgesteuerte Auswahl: Rechenoptimale Testzeit-Strategien für ausführungsbasiertes Code-Generieren

Surprisal-Guided Selection: Compute-Optimal Test-Time Strategies for Execution-Grounded Code Generation

papers.abstract

Support