Seleção Guiada por Surpresa: Estratégias Ótimas de Computação em Tempo de Teste para Geração de Código Fundamentada na Execução

Resumo

O treinamento em tempo de teste (TTT) adapta modelos de linguagem através de atualizações baseadas em gradiente durante a inferência. Mas será que a adaptação é a estratégia correta? Estudamos estratégias computacionalmente ótimas para tarefas de execução fundamentada e verificável (VEG), domínios como a otimização de *kernels* de GPU, onde um avaliador determinístico fornece sinais de recompensa densos e contínuos. Usando o KernelBench como nossa plataforma de teste e um modelo de 120B de parâmetros (GPT-OSS-120B com adaptação LoRA), descobrimos que a busca supera a adaptação mínima (1-5 passos de gradiente): a amostragem *Best-of-N* atinge 90% de sucesso na tarefa (18/20 tarefas) com K=64 em todo o conjunto de avaliação L1 do KernelBench, enquanto o melhor *checkpoint* do TTT atinge apenas 30,6% (média de 3 *seeds*), com o "K equivalente" do TTT ficando abaixo de 1, pior do que a inferência de amostra única. O modo de falha é o excesso de *sharpening*: as atualizações de gradiente colapsam a diversidade em direção a soluções medianas em vez de descobrir as ótimas. Nossa principal contribuição é a seleção guiada por surpresa: selecionar a amostra correta com maior surpresa (menor confiança) resulta em 80% de sucesso contra 50% para a seleção mais confiante, uma melhoria de 30%. Estendendo para os 3 principais guiados por surpresa, iguala-se o desempenho do *oráculo* em 100%. Esta estratégia de custo zero, validada através de análise controlada por comprimento, recupera o desempenho do *oráculo*. Para tarefas VEG com recompensa densa, o poder computacional deve ser alocado para a diversidade de amostras e seleção inteligente, em vez de adaptação por gradiente. O princípio de seleção guiada por surpresa pode generalizar-se para outros domínios de execução fundamentada onde as soluções ótimas ocupam a cauda da distribuição.

English

Test-time training (TTT) adapts language models through gradient-based updates at inference. But is adaptation the right strategy? We study compute-optimal test-time strategies for verifiable execution-grounded (VEG) tasks, domains like GPU kernel optimization where a deterministic evaluator provides dense, continuous reward signals. Using KernelBench as our testbed and a 120B-parameter model (GPT-OSS-120B with LoRA adaptation), we find that search outperforms minimal adaptation (1-5 gradient steps): Best-of-N sampling achieves 90% task success (18/20 tasks) at K=64 across the full KernelBench L1 eval set while TTT's best checkpoint reaches only 30.6% (3-seed mean), with TTT's "equivalent K" falling below 1, worse than single-sample inference. The failure mode is over-sharpening: gradient updates collapse diversity toward mediocre solutions rather than discovering optimal ones. Our main contribution is surprisal-guided selection: selecting the highest-surprisal (lowest-confidence) correct sample yields 80% success vs. 50% for most-confident selection, a 30% improvement. Extending to surprisal-guided-top3 matches oracle performance at 100%. This zero-cost strategy, validated through length-controlled analysis, recovers oracle performance. For dense-reward VEG tasks, compute should be allocated to sample diversity and intelligent selection rather than gradient adaptation. The surprisal-guided selection principle may generalize to other execution-grounded domains where optimal solutions occupy the distribution tail.

Seleção Guiada por Surpresa: Estratégias Ótimas de Computação em Tempo de Teste para Geração de Código Fundamentada na Execução

Surprisal-Guided Selection: Compute-Optimal Test-Time Strategies for Execution-Grounded Code Generation

Resumo

Support