Selección Guiada por Sorpresa: Estrategias Óptimas en Términos de Cómputo para la Generación de Código con Ejecución en Tiempo de Prueba

Resumen

El entrenamiento durante la prueba (TTT) adapta los modelos de lenguaje mediante actualizaciones basadas en gradientes durante la inferencia. Pero, ¿es la adaptación la estrategia correcta? Estudiamos estrategias óptimas en cuanto a cómputo para tareas de ejecución verificable (VEG), dominios como la optimización de kernels de GPU donde un evaluador determinista proporciona señales de recompensa densas y continuas. Utilizando KernelBench como banco de pruebas y un modelo de 120B parámetros (GPT-OSS-120B con adaptación LoRA), encontramos que la búsqueda supera a la adaptación mínima (1-5 pasos de gradiente): el muestreo del mejor de N logra un 90% de éxito en la tarea (18/20 tareas) en K=64 en todo el conjunto de evaluación L1 de KernelBench, mientras que el mejor checkpoint de TTT alcanza solo un 30.6% (media de 3 semillas), con el "K equivalente" de TTT cayendo por debajo de 1, peor que la inferencia de una sola muestra. El modo de fallo es el sobre-afinamiento: las actualizaciones de gradiente colapsan la diversidad hacia soluciones mediocres en lugar de descubrir las óptimas. Nuestra principal contribución es la selección guiada por sorpresa: seleccionar la muestra correcta con mayor sorpresa (menor confianza) produce un 80% de éxito frente al 50% de la selección más confiada, una mejora del 30%. Extendiéndolo a la selección guiada por sorpresa-top3 iguala el rendimiento del oráculo al 100%. Esta estrategia de costo cero, validada mediante análisis controlado por longitud, recupera el rendimiento del oráculo. Para tareas VEG con recompensa densa, el cómputo debe asignarse a la diversidad de muestras y a la selección inteligente en lugar de a la adaptación por gradiente. El principio de selección guiada por sorpresa puede generalizarse a otros dominios de ejecución donde las soluciones óptimas ocupan la cola de la distribución.

English

Test-time training (TTT) adapts language models through gradient-based updates at inference. But is adaptation the right strategy? We study compute-optimal test-time strategies for verifiable execution-grounded (VEG) tasks, domains like GPU kernel optimization where a deterministic evaluator provides dense, continuous reward signals. Using KernelBench as our testbed and a 120B-parameter model (GPT-OSS-120B with LoRA adaptation), we find that search outperforms minimal adaptation (1-5 gradient steps): Best-of-N sampling achieves 90% task success (18/20 tasks) at K=64 across the full KernelBench L1 eval set while TTT's best checkpoint reaches only 30.6% (3-seed mean), with TTT's "equivalent K" falling below 1, worse than single-sample inference. The failure mode is over-sharpening: gradient updates collapse diversity toward mediocre solutions rather than discovering optimal ones. Our main contribution is surprisal-guided selection: selecting the highest-surprisal (lowest-confidence) correct sample yields 80% success vs. 50% for most-confident selection, a 30% improvement. Extending to surprisal-guided-top3 matches oracle performance at 100%. This zero-cost strategy, validated through length-controlled analysis, recovers oracle performance. For dense-reward VEG tasks, compute should be allocated to sample diversity and intelligent selection rather than gradient adaptation. The surprisal-guided selection principle may generalize to other execution-grounded domains where optimal solutions occupy the distribution tail.

Selección Guiada por Sorpresa: Estrategias Óptimas en Términos de Cómputo para la Generación de Código con Ejecución en Tiempo de Prueba

Surprisal-Guided Selection: Compute-Optimal Test-Time Strategies for Execution-Grounded Code Generation

Resumen

Support