Управляемый выбор на основе сюрприза: вычислительно-оптимальные стратегии тестирования для генерации кода с привязкой к исполнению

Аннотация

Адаптация во время тестирования (Test-Time Training, TTT) дорабатывает языковые модели с помощью градиентных обновлений на этапе вывода. Но является ли адаптация правильной стратегией? Мы исследуем вычислительно-оптимальные стратегии для верифицируемых задач, основанных на исполнении (Verifiable Execution-grounded, VEG), — таких областей, как оптимизация GPU-ядер, где детерминированный оценщик предоставляет плотные, непрерывные сигналы вознаграждения. Используя KernelBench в качестве испытательного стенда и модель с 120 млрд параметров (GPT-OSS-120B с адаптацией LoRA), мы обнаруживаем, что поиск превосходит минимальную адаптацию (1–5 градиентных шагов): выборка Best-of-N достигает 90% успеха задач (18/20 задач) при K=64 на всем оценочном наборе KernelBench L1, в то время как лучшая контрольная точка TTT достигает лишь 30,6% (усреднение по 3 сидам), при этом «эквивалентный K» для TTT оказывается ниже 1, что хуже, чем вывод с одним образцом. Режим отказа — это чрезмерное заострение: градиентные обновления сводят разнообразие к посредственным решениям вместо обнаружения оптимальных. Наш основной вклад — это выборка, управляемая неожиданностью: выбор корректного образца с наибольшей неожиданностью (наименьшей уверенностью) дает 80% успеха против 50% для выбора по максимальной уверенности, что на 30% лучше. Расширение до выбора топ-3 по неожиданности соответствует оракульной производительности на уровне 100%. Эта стратегия с нулевой стоимостью, проверенная с помощью анализа с контролем длины, восстанавливает производительность оракула. Для VEG-задач с плотным вознаграждением вычислительные ресурсы следует направлять на разнообразие образцов и интеллектуальный отбор, а не на градиентную адаптацию. Принцип выбора по неожиданности может быть обобщен на другие области, основанные на исполнении, где оптимальные решения находятся в хвосте распределения.

English

Test-time training (TTT) adapts language models through gradient-based updates at inference. But is adaptation the right strategy? We study compute-optimal test-time strategies for verifiable execution-grounded (VEG) tasks, domains like GPU kernel optimization where a deterministic evaluator provides dense, continuous reward signals. Using KernelBench as our testbed and a 120B-parameter model (GPT-OSS-120B with LoRA adaptation), we find that search outperforms minimal adaptation (1-5 gradient steps): Best-of-N sampling achieves 90% task success (18/20 tasks) at K=64 across the full KernelBench L1 eval set while TTT's best checkpoint reaches only 30.6% (3-seed mean), with TTT's "equivalent K" falling below 1, worse than single-sample inference. The failure mode is over-sharpening: gradient updates collapse diversity toward mediocre solutions rather than discovering optimal ones. Our main contribution is surprisal-guided selection: selecting the highest-surprisal (lowest-confidence) correct sample yields 80% success vs. 50% for most-confident selection, a 30% improvement. Extending to surprisal-guided-top3 matches oracle performance at 100%. This zero-cost strategy, validated through length-controlled analysis, recovers oracle performance. For dense-reward VEG tasks, compute should be allocated to sample diversity and intelligent selection rather than gradient adaptation. The surprisal-guided selection principle may generalize to other execution-grounded domains where optimal solutions occupy the distribution tail.

Управляемый выбор на основе сюрприза: вычислительно-оптимальные стратегии тестирования для генерации кода с привязкой к исполнению

Surprisal-Guided Selection: Compute-Optimal Test-Time Strategies for Execution-Grounded Code Generation

Аннотация

Support