Sélection Guidée par la Surprise : Stratégies de Test à Temps d'Exécution Optimales en Calcul pour la Génération de Code Ancré dans l'Exécution

papers.abstract

L'adaptation au moment du test (TTT) adapte les modèles de langage via des mises à jour par gradient lors de l'inférence. Mais l'adaptation est-elle la bonne stratégie ? Nous étudions les stratégies optimales en calcul au moment du test pour les tâches à ancrage exécutable vérifiable (VEG), des domaines comme l'optimisation de kernels GPU où un évaluateur déterministe fournit des signaux de récompense denses et continus. En utilisant KernelBench comme banc d'essai et un modèle de 120 milliards de paramètres (GPT-OSS-120B adapté par LoRA), nous constatons que la recherche surpasse l'adaptation minimale (1-5 pas de gradient) : l'échantillonnage Best-of-N atteint 90% de réussite aux tâches (18/20 tâches) à K=64 sur l'ensemble complet d'évaluation L1 de KernelBench, tandis que le meilleur checkpoint de TTT n'atteint que 30,6% (moyenne sur 3 seeds), le "K équivalent" de TTT étant inférieur à 1, c'est-à-dire pire que l'inférence sur un seul échantillon. Le mode d'échec est un affûtage excessif : les mises à jour par gradient réduisent la diversité vers des solutions médiocres plutôt que de découvrir les solutions optimales. Notre contribution principale est la sélection guidée par la surprisal : sélectionner l'échantillon correct avec la surprisal la plus élevée (confiance la plus faible) donne 80% de réussite contre 50% pour la sélection la plus confiante, soit une amélioration de 30%. Son extension aux 3 meilleurs selon la surprisal correspond aux performances d'un oracle à 100%. Cette stratégie sans coût supplémentaire, validée par une analyse contrôlée en longueur, permet d'atteindre les performances d'un oracle. Pour les tâches VEG à récompense dense, le calcul devrait être alloué à la diversité d'échantillonnage et à une sélection intelligente plutôt qu'à l'adaptation par gradient. Le principe de sélection guidée par la surprisal pourrait se généraliser à d'autres domaines à ancrage exécutable où les solutions optimales se situent dans la queue de la distribution.

English

Test-time training (TTT) adapts language models through gradient-based updates at inference. But is adaptation the right strategy? We study compute-optimal test-time strategies for verifiable execution-grounded (VEG) tasks, domains like GPU kernel optimization where a deterministic evaluator provides dense, continuous reward signals. Using KernelBench as our testbed and a 120B-parameter model (GPT-OSS-120B with LoRA adaptation), we find that search outperforms minimal adaptation (1-5 gradient steps): Best-of-N sampling achieves 90% task success (18/20 tasks) at K=64 across the full KernelBench L1 eval set while TTT's best checkpoint reaches only 30.6% (3-seed mean), with TTT's "equivalent K" falling below 1, worse than single-sample inference. The failure mode is over-sharpening: gradient updates collapse diversity toward mediocre solutions rather than discovering optimal ones. Our main contribution is surprisal-guided selection: selecting the highest-surprisal (lowest-confidence) correct sample yields 80% success vs. 50% for most-confident selection, a 30% improvement. Extending to surprisal-guided-top3 matches oracle performance at 100%. This zero-cost strategy, validated through length-controlled analysis, recovers oracle performance. For dense-reward VEG tasks, compute should be allocated to sample diversity and intelligent selection rather than gradient adaptation. The surprisal-guided selection principle may generalize to other execution-grounded domains where optimal solutions occupy the distribution tail.

Sélection Guidée par la Surprise : Stratégies de Test à Temps d'Exécution Optimales en Calcul pour la Génération de Code Ancré dans l'Exécution

Surprisal-Guided Selection: Compute-Optimal Test-Time Strategies for Execution-Grounded Code Generation

papers.abstract

Support