S*: Ridimensionamento al Tempo di Test per la Generazione di Codice

Abstract

L'aumento del calcolo al momento del test per i modelli linguistici di grandi dimensioni (LLM) mostra promettenti risultati in vari domini, ma rimane poco esplorato nella generazione di codice, nonostante gli studi approfonditi nel campo della matematica. In questo articolo, proponiamo S*, il primo framework ibrido di scalabilità al momento del test che migliora significativamente la copertura e l'accuratezza di selezione del codice generato. S* estende il paradigma esistente di scalabilità parallela con la scalabilità sequenziale per spingere i limiti delle prestazioni. Inoltre, sfrutta un meccanismo di selezione innovativo che genera in modo adattivo input distintivi per il confronto a coppie, combinato con informazioni basate sull'esecuzione per identificare in modo robusto le soluzioni corrette. Valutiamo 12 modelli linguistici di grandi dimensioni e un modello di ragionamento di grandi dimensioni e dimostriamo: (1) S* migliora costantemente le prestazioni tra famiglie e dimensioni di modelli, consentendo a un modello da 3B di superare GPT-4o-mini; (2) S* consente a modelli non di ragionamento di superare i modelli di ragionamento - GPT-4o-mini con S* supera o1-preview del 3,7% su LiveCodeBench; (3) S* potenzia ulteriormente i modelli di ragionamento all'avanguardia - DeepSeek-R1-Distill-Qwen-32B con S* raggiunge l'85,7% su LiveCodeBench, avvicinandosi a o1 (alto) all'88,5%. Il codice sarà disponibile su https://github.com/NovaSky-AI/SkyThought.

English

Increasing test-time compute for LLMs shows promise across domains but remains underexplored in code generation, despite extensive study in math. In this paper, we propose S*, the first hybrid test-time scaling framework that substantially improves the coverage and selection accuracy of generated code. S* extends the existing parallel scaling paradigm with sequential scaling to push performance boundaries. It further leverages a novel selection mechanism that adaptively generates distinguishing inputs for pairwise comparison, combined with execution-grounded information to robustly identify correct solutions. We evaluate across 12 Large Language Models and Large Reasoning Model and show: (1) S* consistently improves performance across model families and sizes, enabling a 3B model to outperform GPT-4o-mini; (2) S* enables non-reasoning models to surpass reasoning models - GPT-4o-mini with S* outperforms o1-preview by 3.7% on LiveCodeBench; (3) S* further boosts state-of-the-art reasoning models - DeepSeek-R1-Distill-Qwen-32B with S* achieves 85.7% on LiveCodeBench, approaching o1 (high) at 88.5%. Code will be available under https://github.com/NovaSky-AI/SkyThought.

S*: Ridimensionamento al Tempo di Test per la Generazione di Codice

S*: Test Time Scaling for Code Generation

Abstract

Support