Selezione Guidata dalla Sorpresa: Strategie Ottimali di Calcolo al Momento del Test per la Generazione di Codice ancorata all'Esecuzione

Abstract

Il test-time training (TTT) adatta i modelli linguistici mediante aggiornamenti basati sul gradiente durante l'inferenza. Ma l'adattamento è la strategia corretta? Studiamo strategie compute-optimal per attività di esecuzione ancorata alla verificabilità (VEG), domini come l'ottimizzazione di kernel GPU in cui un valutatore deterministico fornisce segnali di reward densi e continui. Utilizzando KernelBench come banco di prova e un modello da 120 miliardi di parametri (GPT-OSS-120B con adattamento LoRA), scopriamo che la ricerca supera l'adattamento minimo (1-5 passi di gradiente): il campionamento "Best-of-N" raggiunge il 90% di successo (18/20 task) con K=64 sull'intero set di valutazione L1 di KernelBench, mentre il miglior checkpoint del TTT raggiunge solo il 30,6% (media su 3 seed), con il "K equivalente" del TTT inferiore a 1, peggio dell'inferenza a singolo campione. La modalità di fallimento è l'over-sharpening: gli aggiornamenti del gradiente collassano la diversità verso soluzioni mediocri invece di scoprire quelle ottimali. Il nostro contributo principale è la selezione guidata dalla sorpresa: selezionare il campione corretto con sorpresa più alta (minore confidenza) produce l'80% di successo contro il 50% della selezione più confidente, un miglioramento del 30%. Estendendo alla selezione guidata dalla sorpresa sui primi 3 campioni si eguaglia la performance oracolo al 100%. Questa strategia a costo zero, validata tramite analisi a lunghezza controllata, recupera la performance oracolo. Per task VEG con reward denso, il calcolo dovrebbe essere allocato alla diversità dei campioni e alla selezione intelligente piuttosto che all'adattamento del gradiente. Il principio della selezione guidata dalla sorpresa potrebbe generalizzarsi ad altri domini ancorati all'esecuzione dove le soluzioni ottimali occupano la coda della distribuzione.

English

Test-time training (TTT) adapts language models through gradient-based updates at inference. But is adaptation the right strategy? We study compute-optimal test-time strategies for verifiable execution-grounded (VEG) tasks, domains like GPU kernel optimization where a deterministic evaluator provides dense, continuous reward signals. Using KernelBench as our testbed and a 120B-parameter model (GPT-OSS-120B with LoRA adaptation), we find that search outperforms minimal adaptation (1-5 gradient steps): Best-of-N sampling achieves 90% task success (18/20 tasks) at K=64 across the full KernelBench L1 eval set while TTT's best checkpoint reaches only 30.6% (3-seed mean), with TTT's "equivalent K" falling below 1, worse than single-sample inference. The failure mode is over-sharpening: gradient updates collapse diversity toward mediocre solutions rather than discovering optimal ones. Our main contribution is surprisal-guided selection: selecting the highest-surprisal (lowest-confidence) correct sample yields 80% success vs. 50% for most-confident selection, a 30% improvement. Extending to surprisal-guided-top3 matches oracle performance at 100%. This zero-cost strategy, validated through length-controlled analysis, recovers oracle performance. For dense-reward VEG tasks, compute should be allocated to sample diversity and intelligent selection rather than gradient adaptation. The surprisal-guided selection principle may generalize to other execution-grounded domains where optimal solutions occupy the distribution tail.

Selezione Guidata dalla Sorpresa: Strategie Ottimali di Calcolo al Momento del Test per la Generazione di Codice ancorata all'Esecuzione

Surprisal-Guided Selection: Compute-Optimal Test-Time Strategies for Execution-Grounded Code Generation

Abstract

Support