S*: Масштабирование во время тестирования для генерации кода
S*: Test Time Scaling for Code Generation
February 20, 2025
Авторы: Dacheng Li, Shiyi Cao, Chengkun Cao, Xiuyu Li, Shangyin Tan, Kurt Keutzer, Jiarong Xing, Joseph E. Gonzalez, Ion Stoica
cs.AI
Аннотация
Увеличение вычислительных ресурсов на этапе тестирования для крупных языковых моделей (LLM) демонстрирует перспективность в различных областях, однако остается недостаточно изученным в контексте генерации кода, несмотря на обширные исследования в области математики. В данной статье мы представляем S* — первый гибридный фреймворк масштабирования на этапе тестирования, который существенно улучшает охват и точность выбора генерируемого кода. S* расширяет существующую парадигму параллельного масштабирования за счет последовательного масштабирования, чтобы выйти за пределы текущих показателей производительности. Кроме того, он использует новый механизм выбора, который адаптивно генерирует различительные входные данные для попарного сравнения, сочетая их с информацией, основанной на выполнении, для надежного определения правильных решений. Мы провели оценку на 12 крупных языковых моделях и моделях для рассуждений и показали: (1) S* стабильно улучшает производительность для моделей различных семейств и размеров, позволяя модели объемом 3B превзойти GPT-4o-mini; (2) S* позволяет моделям без функций рассуждений превосходить модели с такими функциями — GPT-4o-mini с S* превосходит o1-preview на 3,7% на тесте LiveCodeBench; (3) S* дополнительно повышает производительность современных моделей для рассуждений — DeepSeek-R1-Distill-Qwen-32B с S* достигает 85,7% на LiveCodeBench, приближаясь к o1 (high) с показателем 88,5%. Код будет доступен по адресу https://github.com/NovaSky-AI/SkyThought.
English
Increasing test-time compute for LLMs shows promise across domains but
remains underexplored in code generation, despite extensive study in math. In
this paper, we propose S*, the first hybrid test-time scaling framework that
substantially improves the coverage and selection accuracy of generated code.
S* extends the existing parallel scaling paradigm with sequential scaling to
push performance boundaries. It further leverages a novel selection mechanism
that adaptively generates distinguishing inputs for pairwise comparison,
combined with execution-grounded information to robustly identify correct
solutions. We evaluate across 12 Large Language Models and Large Reasoning
Model and show: (1) S* consistently improves performance across model families
and sizes, enabling a 3B model to outperform GPT-4o-mini; (2) S* enables
non-reasoning models to surpass reasoning models - GPT-4o-mini with S*
outperforms o1-preview by 3.7% on LiveCodeBench; (3) S* further boosts
state-of-the-art reasoning models - DeepSeek-R1-Distill-Qwen-32B with S*
achieves 85.7% on LiveCodeBench, approaching o1 (high) at 88.5%. Code will be
available under https://github.com/NovaSky-AI/SkyThought.Summary
AI-Generated Summary